빅데이터분석기사

[빅분기] CH01.빅데이터의 이해_빅데이터 기술 및 제도_240310

리니끄적 2024. 3. 10. 21:17

24.03.10

 

01. 빅데이터 플랫폼

빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공

 

1) 빅데이터 플랫폼의 등장배경

① 비즈니스 요구사항 변화  ② 데이터 규모와 처리 복잡도 증가 ③ 데이터 구조의 변화와 신속성 요구 ④ 데이터 분석 유연성 증대

- 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소들의 분석 가능해짐

 

2) 빅데이터 플랫폼의 기능

① 컴퓨팅 부하 발생  ② 저장 부하 발생 ③ 네트워크 부하 발생

 

3) 빅데이터 플랫폼의 조건

- 서비스 사용자와 제공자 어느 한쪽에 치우쳐서는 안 됨

 

4) 빅데이터 플랫폼의 구조

① 소프트웨어 계층

데이터 처리 및 분석 엔진 / 데이터 수집 및 정제 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈 

 

② 플랫폼 계층

사용자 요청 파싱 / 작업 스케줄링 모듈 / 데이터 및 자원 할당 모듈 / 프로파일링 모듈 / 데이터 관리 모듈 / 자원 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈

 

③ 인프라스트럭처 계층

사용자 요청 마싱 / 자원 배치 모듈 / 노드 관리 모듈 / 데이터 관리 모듈 / 네트워크 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 / 모니터링 모듈 / 보안 모듈

 

 

02. 빅데이터 처리 기술

1) 빅데이터 처리과정과 요소기술

- 빅데이터 처리과정: 데이터(생성) > 수집 > 저장(공유) > 처리 > 분석 > 시각화

- 생성: 내/외부 데이터

- 수집: 크롤링 통해 데이터를 검색해 수집, ETL을 통해 소스 데이터로부터 추출, 변환, 적재 / 단순한 수집 X, 검색 및 수집, 변환 과정을 모두 포함 / 로그 수집기나, 센서 네트워크 및 Open API 활용 가능

- 저장(공유): 정형, 반정형, 비정형 데이터 포함 / 병렬 DBMS나 하둡, NoSQL 등 다양한 기술 사용 / 시스템 간의 데이터 공유 가능

- 처리: 데이터를 효과적으로 처리하는 기술 필요 단계 / 분산 병렬 및 인메모리 방식으로 실시간 처리 / 대표적으로 하둡의 맵리듀스를 호라용 가능

- 분석: 데이터 신속하고 정확하게 분석 / 특정 분야의 목적의 특성에 맞는 분석 기법 선택이 중요 / 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등

- 시각화: 빅데이터 처리 및 분석 결과를 사용자에게 보여주는 기술 / 다양한 수치나 관계 등을 표, 그래프 이용해 쉽게 표현, 탐색이나 해석에 활용 / 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성

 

2) 빅데이터 수집

① 크롤링 ② 로그 수집기 ③ 센서 네트워크 ④ RSS Reader/Open API ⑤ ETL 프로세스(다양한 원천 데이터 취합해 추출 -> 공통된 형식으로 변환하여 적재하는 과정)

 

3) 빅데이터 저장

 NoSQL(Not-only SQL) ② 공유 데이터 시스템 ③ 병렬 데이터베이스 관리 시스템  분산 파일 시스템 ⑤ 네트워크 저장 시스템

 

4) 빅데이터 처리

① 분산 시스템과 병렬 시스템 (=두 개념을 아우르는 분사 병렬 컴퓨팅이라는 용어를 사용)

② 분산 병렬 컴퓨팅

<분산 병렬 컴퓨팅 시 고려사항>

- 전체 작업의 배분 문제 / 각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제 / 서로 다른 프로세서 간 동기화 문제

③ 하둡(Hadoop)

분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크

④ 아파치 스파크

- 실시간 분산형 컴퓨팅 플랫폼, In-Memory 방식으로 처리, 하둡보다 처리속도 빠름

⑤ 맵리듀스

효과적인 병렬 및 분산 처리를 지원

 

5) 빅데이터 분석

① 데이터 분석 방법의 분류

- 탐구 요인 분석 / 확인 요인 분석

② 데이터 분석 방법: 분류 / 군집화 / 기계학습 / 텍스트 마이닝 / 웹 마이닝 / 오피니언 마이닝 / 리얼리티 마이닝 / 소셜 네트워크 분석 / 감성 분석

 

03. 빅데이터와 인공지능

1) 인공지능(AI: Artificial Intelligence)

① 인공지능의 정의

- 인공지능은 기계를 지능화하는 노력, 객체가 환경에서 적절히, 예지력을 갖고 작동하도록 하는 것

- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직

② 인공지능과 기계학습 및 딥러닝의 관계
- 인공지능: 사람이 생가갛고 판단하는 사고 구조를 구축하려는 전반적인 노력

- 기계학습: 인공지능의 연구 분야 중 하나, 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법

- 딥러닝: 기계학습 방법 중 하나, 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법

 딥러닝의 특징

깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징

④ 기계학습의 종류

- 지도학습 / 비지도학습 / 준지도학습 / 강화학습 

⑤ 기계학습 방법에 따른 인공지능 응용분야

- 지도학습: 분류모형 (이미지, 음성 인식, 신용평가 및 사기검출, 불량예측 및 원인발굴), 회귀모형(시세/가격/주가 예측, 강우량 예측 등)

- 비지도학습: 군집분석(텍스트 토픽 분석, 고객 세그멘테이션), 오토인코더(이상징후 탐지, 노이즈 제거, 텍스트 벡터화), 생성적 적대 신경망(시뮬레이션/누락/패션 데이터 생성 등)

- 강화학습: 강화학습(게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 등)

 

2) 인공지능 데이터 학습의 진화

① 전이학습: 기존의 학습된 모델의 지식을 새로운 문제에 적용해 학습을 빠르고 효율적으로 수행하는 머신러닝 기법

② 전이학습 기반 사전학습모형: 딥러닝 모형 + 추가적인 데이터 학습

③ BERT: 언어인식 사전학습모형 (256개까지 문자 입력 가능, 768차원 숫자 벡터가 생성되는 방식)

 

3) 빅데이터와 인공지능의 관계

① 인공지능을 위한 학습 데이터 확보

② 학습 데이터의 애노테이션 작업

③ 애노테이션 작업을 위한 도구로써의 인공지능

 

4) 인공지능의 기술동향

① 기계학습 프레임워크 보급 확대

② 생성적 적대 신경망

③ 오토인코더

④ 설명 가능한 인공지능

⑤ 기계학습 자동화

 

5) 인공지능의 한계점과 발전방향

① 국내시장의 한계

② 인공지능의 미래

 

 

04. 개인정보 개요

1) 개인정보의 정의와 판단기준

① 개인정보의 정의: 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보

② 개인정보의 판단기준: '생존하는' '개인에 관한' 정보 / '정보'의 내용과 형태 제한 X / 개인을 '알아볼 수 있는' 정보 

 

2) 개인정보의 이전

① 개인정보의 처리 위탁(제공자의 업무 처리와 이익) ② 개인정보의 제3자 제공(제공받는 자의 업무 처리와 이익)


3) 개인정보의 보호

① 개인정보의 보호조치

② 빅데이터 개인정보보호 가이드라인(방송통신위원회)

- 비식별화 / 투명성 확보 / 재식별 시 조치 / 민감정보 및 비밀정보 처리 / 기술적, 관리적 보호조치

③ 개인정보 보호를 위한 고려사항

 

4) 개인정보보호 관련 법률

 

 

05. 개인정보 법·제도

1) 개인정보보호법

① 개인정보보호법의 개요: 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지

 개인정보의 범위(제2조 제1호): 다른 정보와 결합 가능성을 비교적 넓게 인정

③ 개인정보의 처리 위탁

④ 개인정보의 제3자 제공

⑤ 개인정보 처리 위탁과 제3자 제공 판단 기준

⑥ 비식별 개인정보의 이전

 

2) 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)

① 정보통신망법의 개요 

 개인정보의 처리 위탁

 

3) 신용정보의 이용 및 보호에 관한 법률(신용정보보호법)

① 신용정보보호법의 개요

 신용정보의 범위(제2조 제1호 및 제2호, 제 34조 제1항)

③ 개인신용정보

④ 개인신용정보의 처리 위탁

⑤ 개인신용정보의 제3자 제공

⑥ 개인식별정보

 

4) 2020년 데이터 3법의 주요 개정 내용

① 개인정보보호법 주요 개정

- 개인정보 관련 개념 > 개인정보, 가명정보, 익명정보로 구분

- 가명정보를 통해 통계 작성 연구, 공익적 기록보존 목적을 처리할 수 있도록 허용

- 가명정보 이용 시 안전장치 및 통제 수단 마련

- 분산된 개인정보보호 감독기관을 개인정보보호위원회로 일원화

- 개인정보보호위원회는 국무총리 소속 중앙행정기관으로 격상

 

 정보통신망법 주요 개정 내용

- 개인정보보호 관련 사항을 개인정보보호법으로 이관

- 온라인상 개인정보보호 관련 규제 및 감독 주체를 개인정보보호위원회로 변경

 

③ 신용정보보호법 주요 개정 내용

- 가명정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거 마련

- 가명정보는 통계작성, 연구, 공익적 기록보존 등을 위해 신용정보 주체의 동의 없이 이용, 제공 가능

 

5) 유럽 연합과 미국의 개인정보보호 체계

① 유럽 연합(EU): 시민의 데이터를 활용하는 경우, GDPR을 준수해야 함

 미국: 시장 자율 규율 방식으로 EU나 한국 같이 개인정보보호에 관한 일반법이 연방 법률로 존재하지 X, but 각 영역별로 개인정보보호 규율하는 개별 법률이 각 분야별 개인정보보호를 담당

 

 

 06. 개인정보 비식별화

1) 개인정보 비식별화의 개요

① 비식별 정보

 비식별 조치: 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체 등의 방법으로 알아볼 수 없도록 하는 조치

③ 비식별 정보의 활용

- 원칙적으로 불특정 다수에게 공개는 금지!

④ 비식별 정보의 보호

 

2) 개인정보 비식별화 조치 가이드라인

① 개인정보 비식별화 조치 가이드라인의 추진배경: 빅데이터 활용 확산에 따른 데이터 활용가치 증대, 개인정보 보호 강화 필요 요구

 개인정보 비식별화 조치 가이드라인의 단계별 조치사항

- 사전 검토: 개인정보, 식별정보

- 비식별 조치: 가명, 총계, 삭제, 범주화, 마스킹

- 적정성 평가: k-익명성, l-다양성, t-근접성

- 사후 관리: 관리적/기술적 보호조치 (재식별 방지)

 

③ 개인정보 비식별화 조치 가이드라인의 단계별 조치 기준

- 사전검토: 개인정보 해당 여부 검토

- 비식별 조치: 비식별 조치기법 적용(식별자 조치 기준, 속성자 조치 기준)

- 적정성 평가: k-익명성 모델 활용, 적정성 평가 필요성, 적정성 평가 절차 (기초자료 작성 > 평가단 구성 > 평가 수행 > 추가 비식별 조치 > 데이터 활용)

- 사후 관리: 비식별 정보 안전 조치(관리적 보호조치, 기술적 보호조치), 재식별 가능성 모니터링, 비식별 정보 제공 및 위탁계약 시 준수 사항(재식별 금지, 재제공 또는 재위탁 제한, 재식별 위험 시 통지), 재식별 시 조치요령

 

④ 개인정보 비식별화 조치 가이드라인의 조치방법

가명 처리 / 총계 처리 / 데이터 삭제 / 데이터 범주화 / 데이터 마스킹

 

 

 

07. 개인정보 활용

1) 데이터 수집의 위기 요인과 통제 방안

① 사생활 침해로 위기 발생

 동의에서 책임으로 강화하여 통제

 

2) 데이터 활용의 위기 요인과 통제 방안

① 책임원칙 훼손으로 위기 발생

 결과 기반 책임 원칙을 고수하여 통제

 

3) 데이터 처리의 위기 요인과 통제 방안

① 데이터 오용으로 위기 발생

 알고리즘 접근을 허용하여 통제

 

 


예상문제 오답노트

 

03) 다음 중 빅데이터 플랫폼의 빅데이터 수집기술이 아닌 것은?


① 크롤링(Crawling)
② ETL
③ Clustering
④ Open API

- 3번 Clustering은데이터 분석기술이다!

 

 

12) 다음 중 신용정보의 이용 및 보호에 관한 법률의 개인정보 범위에 대한 설명 중 틀린 것은?

① 신용정보란 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한 정보이다.
② 개인신용정보란 신용정보 중 개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보이다.
③ 개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보이다. 
④ 개인식별정보란 생존하는 개인의 성명, 주소 및 주민등록번호, 여권번호, 운전면허번호, 외국인등록번호(국내거소신고번호) 및 성별, 국적 등 개인을 식별할 수 있는 정보이다.

- 3번은 신용정보의 이용 및 보호에 관한 법률이 아닌, 개인정보보호법에 범위에 해당하는 정의이다.

 

 

13) 다음 중 2020년에 개정된 데이터 기본 3법의 주요 개정 내용으로 옳지 않은 것은?


 데이터 이용 활성화를 위한 익명정보 개념 및 데이터간 결합 근거를 마련하였다.
② 개인정보보호 관련 법률의 유사, 중복된 규정을 정비 및 거버넌스 체계 효율화를 이루었다.
③ 데이터 활용에 따른 개인정보처리자 책임을 강화하였다.
④ 다소 모호했던 개인정보의 판단기준을 명확하게 하였다.

- 익명정보 개념이 아닌 가명정보 개념을 도입하였다.

 

 

14) 다음 중 데이터 기본 3법을 적용하고자 할 때의 설명으로 틀린 것은?


① 일반법과 특별법이 저촉되면 특별법이 먼저 적용된다.
② 특별법에 규정이 없는 사항에 대해서는 일반법이 적용된다.
③ 개인정보보호법은 데이터 기본 3법 중 특별법에 해당한다.
④ 법률이 상호 모순되거나 저촉되는 경우 신법이 구법에 우선한다.


- 개인정보보호법은 데이터 기본 3법 중 일반법에 해당한다.

 

 

20) 다음 중 빅데이터를 활용하는 과정에서 사생활 침해를 방지하기 위하여 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법을 무엇이라 하는가?

 

① 가명화
② 일반화
③ 정규화
④ 익명화