[빅분기] CH01.빅데이터의 이해_빅데이터 기술 및 제도_240310
24.03.10
01. 빅데이터 플랫폼
빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공
1) 빅데이터 플랫폼의 등장배경
① 비즈니스 요구사항 변화 ② 데이터 규모와 처리 복잡도 증가 ③ 데이터 구조의 변화와 신속성 요구 ④ 데이터 분석 유연성 증대
- 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소들의 분석 가능해짐
2) 빅데이터 플랫폼의 기능
① 컴퓨팅 부하 발생 ② 저장 부하 발생 ③ 네트워크 부하 발생
3) 빅데이터 플랫폼의 조건
- 서비스 사용자와 제공자 어느 한쪽에 치우쳐서는 안 됨
4) 빅데이터 플랫폼의 구조
① 소프트웨어 계층
데이터 처리 및 분석 엔진 / 데이터 수집 및 정제 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈
② 플랫폼 계층
사용자 요청 파싱 / 작업 스케줄링 모듈 / 데이터 및 자원 할당 모듈 / 프로파일링 모듈 / 데이터 관리 모듈 / 자원 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈
③ 인프라스트럭처 계층
사용자 요청 마싱 / 자원 배치 모듈 / 노드 관리 모듈 / 데이터 관리 모듈 / 네트워크 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈
02. 빅데이터 처리 기술
1) 빅데이터 처리과정과 요소기술
- 빅데이터 처리과정: 데이터(생성) > 수집 > 저장(공유) > 처리 > 분석 > 시각화
- 생성: 내/외부 데이터
- 수집: 크롤링 통해 데이터를 검색해 수집, ETL을 통해 소스 데이터로부터 추출, 변환, 적재 / 단순한 수집 X, 검색 및 수집, 변환 과정을 모두 포함 / 로그 수집기나, 센서 네트워크 및 Open API 활용 가능
- 저장(공유): 정형, 반정형, 비정형 데이터 포함 / 병렬 DBMS나 하둡, NoSQL 등 다양한 기술 사용 / 시스템 간의 데이터 공유 가능
- 처리: 데이터를 효과적으로 처리하는 기술 필요 단계 / 분산 병렬 및 인메모리 방식으로 실시간 처리 / 대표적으로 하둡의 맵리듀스를 호라용 가능
- 분석: 데이터 신속하고 정확하게 분석 / 특정 분야의 목적의 특성에 맞는 분석 기법 선택이 중요 / 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등
- 시각화: 빅데이터 처리 및 분석 결과를 사용자에게 보여주는 기술 / 다양한 수치나 관계 등을 표, 그래프 이용해 쉽게 표현, 탐색이나 해석에 활용 / 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성
2) 빅데이터 수집
① 크롤링 ② 로그 수집기 ③ 센서 네트워크 ④ RSS Reader/Open API ⑤ ETL 프로세스(다양한 원천 데이터 취합해 추출 -> 공통된 형식으로 변환하여 적재하는 과정)
3) 빅데이터 저장
① NoSQL(Not-only SQL) ② 공유 데이터 시스템 ③ 병렬 데이터베이스 관리 시스템 ④ 분산 파일 시스템 ⑤ 네트워크 저장 시스템
4) 빅데이터 처리
① 분산 시스템과 병렬 시스템 (=두 개념을 아우르는 분사 병렬 컴퓨팅이라는 용어를 사용)
② 분산 병렬 컴퓨팅
<분산 병렬 컴퓨팅 시 고려사항>
- 전체 작업의 배분 문제 / 각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제 / 서로 다른 프로세서 간 동기화 문제
③ 하둡(Hadoop)
- 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크
④ 아파치 스파크
- 실시간 분산형 컴퓨팅 플랫폼, In-Memory 방식으로 처리, 하둡보다 처리속도 빠름
⑤ 맵리듀스
- 효과적인 병렬 및 분산 처리를 지원
5) 빅데이터 분석
① 데이터 분석 방법의 분류
- 탐구 요인 분석 / 확인 요인 분석
② 데이터 분석 방법: 분류 / 군집화 / 기계학습 / 텍스트 마이닝 / 웹 마이닝 / 오피니언 마이닝 / 리얼리티 마이닝 / 소셜 네트워크 분석 / 감성 분석
03. 빅데이터와 인공지능
1) 인공지능(AI: Artificial Intelligence)
① 인공지능의 정의
- 인공지능은 기계를 지능화하는 노력, 객체가 환경에서 적절히, 예지력을 갖고 작동하도록 하는 것
- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직
② 인공지능과 기계학습 및 딥러닝의 관계
- 인공지능: 사람이 생가갛고 판단하는 사고 구조를 구축하려는 전반적인 노력
- 기계학습: 인공지능의 연구 분야 중 하나, 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법
- 딥러닝: 기계학습 방법 중 하나, 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법
③ 딥러닝의 특징
- 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징
④ 기계학습의 종류
- 지도학습 / 비지도학습 / 준지도학습 / 강화학습
⑤ 기계학습 방법에 따른 인공지능 응용분야
- 지도학습: 분류모형 (이미지, 음성 인식, 신용평가 및 사기검출, 불량예측 및 원인발굴), 회귀모형(시세/가격/주가 예측, 강우량 예측 등)
- 비지도학습: 군집분석(텍스트 토픽 분석, 고객 세그멘테이션), 오토인코더(이상징후 탐지, 노이즈 제거, 텍스트 벡터화), 생성적 적대 신경망(시뮬레이션/누락/패션 데이터 생성 등)
- 강화학습: 강화학습(게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 등)
2) 인공지능 데이터 학습의 진화
① 전이학습: 기존의 학습된 모델의 지식을 새로운 문제에 적용해 학습을 빠르고 효율적으로 수행하는 머신러닝 기법
② 전이학습 기반 사전학습모형: 딥러닝 모형 + 추가적인 데이터 학습
③ BERT: 언어인식 사전학습모형 (256개까지 문자 입력 가능, 768차원 숫자 벡터가 생성되는 방식)
3) 빅데이터와 인공지능의 관계
① 인공지능을 위한 학습 데이터 확보
② 학습 데이터의 애노테이션 작업
③ 애노테이션 작업을 위한 도구로써의 인공지능
4) 인공지능의 기술동향
① 기계학습 프레임워크 보급 확대
② 생성적 적대 신경망
③ 오토인코더
④ 설명 가능한 인공지능
⑤ 기계학습 자동화
5) 인공지능의 한계점과 발전방향
① 국내시장의 한계
② 인공지능의 미래
04. 개인정보 개요
1) 개인정보의 정의와 판단기준
① 개인정보의 정의: 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보
② 개인정보의 판단기준: '생존하는' '개인에 관한' 정보 / '정보'의 내용과 형태 제한 X / 개인을 '알아볼 수 있는' 정보
2) 개인정보의 이전
① 개인정보의 처리 위탁(제공자의 업무 처리와 이익) ② 개인정보의 제3자 제공(제공받는 자의 업무 처리와 이익)
3) 개인정보의 보호
① 개인정보의 보호조치
② 빅데이터 개인정보보호 가이드라인(방송통신위원회)
- 비식별화 / 투명성 확보 / 재식별 시 조치 / 민감정보 및 비밀정보 처리 / 기술적, 관리적 보호조치
③ 개인정보 보호를 위한 고려사항
4) 개인정보보호 관련 법률
05. 개인정보 법·제도
1) 개인정보보호법
① 개인정보보호법의 개요: 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지
② 개인정보의 범위(제2조 제1호): 다른 정보와 결합 가능성을 비교적 넓게 인정
③ 개인정보의 처리 위탁
④ 개인정보의 제3자 제공
⑤ 개인정보 처리 위탁과 제3자 제공 판단 기준
⑥ 비식별 개인정보의 이전
2) 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
① 정보통신망법의 개요
② 개인정보의 처리 위탁
3) 신용정보의 이용 및 보호에 관한 법률(신용정보보호법)
① 신용정보보호법의 개요
② 신용정보의 범위(제2조 제1호 및 제2호, 제 34조 제1항)
③ 개인신용정보
④ 개인신용정보의 처리 위탁
⑤ 개인신용정보의 제3자 제공
⑥ 개인식별정보
4) 2020년 데이터 3법의 주요 개정 내용
① 개인정보보호법 주요 개정
- 개인정보 관련 개념 > 개인정보, 가명정보, 익명정보로 구분
- 가명정보를 통해 통계 작성 연구, 공익적 기록보존 목적을 처리할 수 있도록 허용
- 가명정보 이용 시 안전장치 및 통제 수단 마련
- 분산된 개인정보보호 감독기관을 개인정보보호위원회로 일원화
- 개인정보보호위원회는 국무총리 소속 중앙행정기관으로 격상
② 정보통신망법 주요 개정 내용
- 개인정보보호 관련 사항을 개인정보보호법으로 이관
- 온라인상 개인정보보호 관련 규제 및 감독 주체를 개인정보보호위원회로 변경
③ 신용정보보호법 주요 개정 내용
- 가명정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거 마련
- 가명정보는 통계작성, 연구, 공익적 기록보존 등을 위해 신용정보 주체의 동의 없이 이용, 제공 가능
5) 유럽 연합과 미국의 개인정보보호 체계
① 유럽 연합(EU): 시민의 데이터를 활용하는 경우, GDPR을 준수해야 함
② 미국: 시장 자율 규율 방식으로 EU나 한국 같이 개인정보보호에 관한 일반법이 연방 법률로 존재하지 X, but 각 영역별로 개인정보보호 규율하는 개별 법률이 각 분야별 개인정보보호를 담당
06. 개인정보 비식별화
1) 개인정보 비식별화의 개요
① 비식별 정보
② 비식별 조치: 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체 등의 방법으로 알아볼 수 없도록 하는 조치
③ 비식별 정보의 활용
- 원칙적으로 불특정 다수에게 공개는 금지!
④ 비식별 정보의 보호
2) 개인정보 비식별화 조치 가이드라인
① 개인정보 비식별화 조치 가이드라인의 추진배경: 빅데이터 활용 확산에 따른 데이터 활용가치 증대, 개인정보 보호 강화 필요 요구
② 개인정보 비식별화 조치 가이드라인의 단계별 조치사항
- 사전 검토: 개인정보, 식별정보
- 비식별 조치: 가명, 총계, 삭제, 범주화, 마스킹
- 적정성 평가: k-익명성, l-다양성, t-근접성
- 사후 관리: 관리적/기술적 보호조치 (재식별 방지)
③ 개인정보 비식별화 조치 가이드라인의 단계별 조치 기준
- 사전검토: 개인정보 해당 여부 검토
- 비식별 조치: 비식별 조치기법 적용(식별자 조치 기준, 속성자 조치 기준)
- 적정성 평가: k-익명성 모델 활용, 적정성 평가 필요성, 적정성 평가 절차 (기초자료 작성 > 평가단 구성 > 평가 수행 > 추가 비식별 조치 > 데이터 활용)
- 사후 관리: 비식별 정보 안전 조치(관리적 보호조치, 기술적 보호조치), 재식별 가능성 모니터링, 비식별 정보 제공 및 위탁계약 시 준수 사항(재식별 금지, 재제공 또는 재위탁 제한, 재식별 위험 시 통지), 재식별 시 조치요령
④ 개인정보 비식별화 조치 가이드라인의 조치방법
가명 처리 / 총계 처리 / 데이터 삭제 / 데이터 범주화 / 데이터 마스킹
07. 개인정보 활용
1) 데이터 수집의 위기 요인과 통제 방안
① 사생활 침해로 위기 발생
② 동의에서 책임으로 강화하여 통제
2) 데이터 활용의 위기 요인과 통제 방안
① 책임원칙 훼손으로 위기 발생
② 결과 기반 책임 원칙을 고수하여 통제
3) 데이터 처리의 위기 요인과 통제 방안
① 데이터 오용으로 위기 발생
② 알고리즘 접근을 허용하여 통제
예상문제 오답노트
03) 다음 중 빅데이터 플랫폼의 빅데이터 수집기술이 아닌 것은?
① 크롤링(Crawling)
② ETL
③ Clustering
④ Open API
- 3번 Clustering은데이터 분석기술이다!
12) 다음 중 신용정보의 이용 및 보호에 관한 법률의 개인정보 범위에 대한 설명 중 틀린 것은?
① 신용정보란 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한 정보이다.
② 개인신용정보란 신용정보 중 개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보이다.
③ 개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보이다.
④ 개인식별정보란 생존하는 개인의 성명, 주소 및 주민등록번호, 여권번호, 운전면허번호, 외국인등록번호(국내거소신고번호) 및 성별, 국적 등 개인을 식별할 수 있는 정보이다.
- 3번은 신용정보의 이용 및 보호에 관한 법률이 아닌, 개인정보보호법에 범위에 해당하는 정의이다.
13) 다음 중 2020년에 개정된 데이터 기본 3법의 주요 개정 내용으로 옳지 않은 것은?
① 데이터 이용 활성화를 위한 익명정보 개념 및 데이터간 결합 근거를 마련하였다.
② 개인정보보호 관련 법률의 유사, 중복된 규정을 정비 및 거버넌스 체계 효율화를 이루었다.
③ 데이터 활용에 따른 개인정보처리자 책임을 강화하였다.
④ 다소 모호했던 개인정보의 판단기준을 명확하게 하였다.
- 익명정보 개념이 아닌 가명정보 개념을 도입하였다.
14) 다음 중 데이터 기본 3법을 적용하고자 할 때의 설명으로 틀린 것은?
① 일반법과 특별법이 저촉되면 특별법이 먼저 적용된다.
② 특별법에 규정이 없는 사항에 대해서는 일반법이 적용된다.
③ 개인정보보호법은 데이터 기본 3법 중 특별법에 해당한다.
④ 법률이 상호 모순되거나 저촉되는 경우 신법이 구법에 우선한다.
- 개인정보보호법은 데이터 기본 3법 중 일반법에 해당한다.
20) 다음 중 빅데이터를 활용하는 과정에서 사생활 침해를 방지하기 위하여 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법을 무엇이라 하는가?
① 가명화
② 일반화
③ 정규화
④ 익명화