-
[빅분기] CH2. 데이터 분석 계획_분석 방안 수립_240311빅데이터분석기사 2024. 3. 11. 23:46
24.03.11
04. 분석 문제 정의
1) 분석 문제 정의 개요
① 분석 과제 도출: 해결해야 할 다양 한 문제들을 데이터 분석 문제로 변환하여 과제정의서 형태로 도출
② 대표적인 분석 과제 도출 방법
- 하향식 접근 방식: 문제가 먼저 주어지고 이에 대한 해법을 찾아감
- 상향식 접근 방식: 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색
③ 최적의 의사결정을 위한 혼합방식
- 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행, 상호 보완을 통해 분석의 가치 극대화 (상향 - 발산, 하향 - 수렴)
④ 분석 과제 정의
2) 하향식 접근 방식
- 문제가 주어지고 이에 대한 해법 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
<하향식 접근 방식의 구성>
- 문제 탐색 / 문제 정의 / 해결방안 탐색 / 타당성 평가
① 문제 탐색 단계
비즈니스 모델 기반 문제 탐색, 외부 참조 모델 기반 문제 탐색, 분석 유스케이스 정의
② 문제 정의 단계
식별된 비즈니스 문제를 데이터적인 문제로 변환해 정의
③ 해결방안 탐색 단계
분석 기법 및 시스템(How)과 분석 역량(Who) 보유 여부에 따라 세분화 가능
④ 타당성 평가 단계
경제적 타당성 / 데이터 및 기술적 타당성
3) 하향식 접근 방식의 문제 탐색 방법
① 비즈니스 모델 캔버스를 활용한 과제 발굴
9가지 블록을 단순화해 문제 발굴을 3개의 단위로, 이를 관리하는 2개의 영역으로 도출
업무 단위 / 제품 단위 / 고객 단위 / 규제와 감사 영역 / 지원 인프라 영역
② 분석 기회 발굴의 범위 확장
현재 사업 방식이나 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출 가능
관점 영역 거시적 관점 사회 영역 기술 영역 경제 영역 환경 영역 정치 영역 경쟁자 확대 관점 대체재 영역 경쟁자 영역 신규 진입자 영역 시장의 니즈 탐색 관점 고객 영역 채널 영역 영향자들 영역 역량의 재해석 관점 내부 역량 영역 파트너와 네트워크 영역 4) 상향식 접근 방식
① 상향식 접근 방식의 특징
- 다량의 데이터 분석을 통해 왜(why) 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출
② 상향식 접근 방식의 등장배경
- 기존 하향식 접근 방식의 한계를 극복하기 위해 등장 (새로운 문제 탐색의 어려움, 복잡하고 다양한 환경 발생 문제에 부적합)
③ 상향식 접근기반 전통적 분석 사고 극복방안
디자인 사고 접근법 / 비지도학습 방법에 의한 수행 / 빅데이터 환경에서의 분석
④ 상향식 접근 방식의 문제 해결 방법
- 프로토타이핑 접근법: 일단 먼저 분석 시도해 보고 결과를 확인하면서 반복적으로 개선
<프로토타이핑 접근법의 필요성>
문제에 대한 인식 수준 / 필요 데이터 존재 여부의 불확실성 / 데이터 사용 목적의 가변성
<프로토타이핑 접근법의 프로세스>
- 특징: 잘 설계하면 불명홧겅은 감소하고 의도했던 결과 도출 가능성 높아짐, 최대한 빨리 분석 결과 보여주고 반복하는 방법이 효과적
- 구성: 가설의 생성 / 디자인에 대한 실험 / 실제 환경에서의 테스트 / 테스트 겨로가에서의 통찰 도출 및 가설 확인
05. 데이터 분석 방안
1) 분석 방법론
데이터 분석 시 품질확보를 위해 단계별로 수행하는 활종
① 분석 방법론의 구성요건
상세한 절차 / 방법 / 도구와 기법 / 템플릿과 산출물 / 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
② 분석 방법론의 생성과정(선순환 과정)
형식화 > 체계화 > 내재화
2) 계층적 프로세스 모델 구성
① 최상위 계층 - 단계(Phase)
프로세스 그룹을 통해 완성된 단계별 산출물 생성, 각 단계는 기준선으로 설정되어 관리
② 중간 계층 - 태스크(Task)
각 태스크는 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질검토 가능
③ 최하위 계층 - 스텝(Step)
WBS의 워크패키지, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
3) 소프트웨어개발생명주기 활용
<구성요소>
계획(요구명세) / 요구분석 / 설계 / 구현 / 시험 / 유지보수
① 폭포수 모형: 고전적 생명주기 패러다임, 모든 단계를 순차적으로 접근하는 방법, 문제점 뒤늦게 발견됨
② 프로토타입 모형
- 실험적 프로토타입: 요구분석의 어려움을 해결하기 위해 실제 개발될 소프트웨어의 일부분을 직접 개발함으로써 의사소통의 도구로 활용
- 진화적 프로토타입: 요구분석의 도구로만 활용하는 것이 아니라, 이미 개발된 프로토타입을 지속적으로 발전 -> 최종 소프트웨어로 발전시킴
③ 나선형 모형: 시스템 개발하면서 생기는 위험 최소화하기 위해 나선을 돌며 점진적으로 완벽한 시스템을 개발하는 모형, 관리가 중요하나 매우 어렵고 개발시간 장기화 가능성 있음
④ 반복적 모형
- 증분형 모형: 사용자의 요구사항과 제품의 일부분을 반복적으로 개발하며 대상범위를 확대해 최종제품 완성하는 방법
- 진화형 모형: 시스템이 가지는 여러 구성요소의 핵심부분을 개발한 후 각 구성요소를 지속적으로 발전시킴
⑤ 소프트웨어개발생명주기 모형 선정 기준
프로젝트의 규모와 성격 / 개발에 사용되는 방법과 도구 / 개발에 소요되는 시간과 비용 / 개발과정에서의 통제수단과 소프트웨어 산출물 인도 방식
4) KDD 분석 방법론
통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스
① KDD 분석 방법론의 9가지 프로세스
1. 분석 대상 비즈니스 도메인의 이해
2. 분석 대상 데이터셋 선택과 생성
3. 데이터에 포함되어 있는 잡음(Noise)과 이상값(Outlier) 등을 제거하는 정제작업이나 선처리
4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
5. 분석 목적에 맞는 데이터 마이닝 기법 선택
6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7. 데이터 마이닝 시행
8. 데이터 마이닝 결과에 대한 해석
9. 데이터 마이닝에서 발견된 지식 활용② KDD 분석 방법론의 분석절차
데이터셋 선택 / 데이터 전처리 / 데이터 변환 / 데이터 마이닝 / 데이터 마이닝 결과 평가
5) CRISP-DM 분석 방법론
① CRISP-DM 분석 방법론의 4계층
- 최상위 레벨 / 일반화 태스크 / 세분화 태스크 / 프로세스 실행
② CRISP-DM 분석 방법론의 분석절차
업무 이해 / 데이터 이해 / 데이터 준비 / 모델링 / 평가 / 전개(배포)
6) SEMMA 분석 방법론
① SEMMA 분석 방법론의 특징
- SAS Institute의 데이터 마이닝 도구와 손쉽게 접목해 활용 가능
- 주로 데이터 마이닝 프로젝트의 모델링 작업에 중점
② SEMMA 분석 방법론의 분석절차
추출 / 탐색 / 수정 / 모델링 / 평가
06. 빅데이터 분석 방법론
1) 빅데이터 분석 방법론 개요: 응용 서비스 개발을 위한 3계층으로 구성되었다
- 단계(Phase): 데이터 분석을 수행하기 위한 절차
- 태스크(Task): 각 단계별로 수행되어야 하는 세부 업무
- 스텝(Step): 단기간 내에 수행 가능한 워크패키지 / 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
2) 빅데이터 분석 방법론의 개발 절차
분석 기획 > 데이터 준비 > 데이터 분석 > 시스템 구현 > 평가 및 전개
① 분석 기획(Planning)
: 비즈니스 이해 및 범위 설정 / 프로젝트 정의 및 계획 수립 / 프로젝트 위험 계획 수립
② 데이터 준비(Planning)
: 필요 데이터 정의 / 데이터 스토어 설계 / 데이터 수집 및 정합성 점검
③ 데이터 분석(Analyzing)
: 분석용 데이터 준비 / 텍스트 분석 / 탐색적 분석 / 모델링 / 모델 평가 및 검증
④ 시스템 구현(Developing)
: 설계 및 구현 / 시스템 테스트 및 운영
⑤ 평가 및 전개(Deploying)
: 모델 발전계획 수립 / 프로젝트 평가 및 보고
07. 데이터 분석 거버넌스
1) 데이터 분석 거버넌스 개요
① 데이터 분석 거버넌스의 필요성
- 데이터 분석을 하나의 기업 문화로 정착, 지속적으로 고도화 해나가기 위해 필요
② 데이터 분석 거버넌스의 구성요소
- 데이터 분석 기획과 관리를 수행하는 조직
- 데이터 분석 과제 기획과 운영 프로세스
- 데이터 분석 지원 인프라
- 데이터 거버넌스
- 데이터 분석 교육 및 마인드 육성 체계
2) 데이터 분석 기획과 관리를 수행하는 조직
- 빅데이터 개요 및 활용 참고
3) 데이터 분석 과제 기획과 운영 프로세스
① 데이터 분석 과제 관리 프로세스의 구성
- 과제 발굴 단계 / 과제 수행 및 모니터링 단계
② 데이터 분석 과제 관리 프로세스의 특징
- 데이터 분석 문화를 내재화 -> 경쟁력 확보
- 결과물 축적해 관리 -> 향후 유사 데이터 분석 과제 수행 시 시행착오 최소화
- 데이터 분석 프로젝트를 효율적으로 진행 가능
③ 데이터 분석 과제 관리 프로세스
분석 Idea 발굴 / 분석과제 후보 제안 / 분석과제 확정 / 팀 구성 / 분석과제 실행 / 분석과제 진행 관리 / 결과 공유, 개선
4) 데이터 분석 지원 인프라
① 데이터 분석 플랫폼 구축
** 단기적으로 구축하기 쉬운 개별 시스템보다는 확장성을 고려한 플랫폼 구조 도입이 적절
개별 시스템 플랫폼 구조 - 시스템 간 자체적인 데이터 교환
- 시스템별 독립적인 데이터 관리
- 확장 시 시스템 간 인터페이스 폭증- 분석 플랫폼을 활용한 공동기능 활용
- 중앙집중적 데이터 관리
- 시스템 간 인터페이스 최소화② 데이터 분석 플랫폼의 정의
- 데이터 분석 서비스를 위한 응용프로그램이 실행될 수 있는 환경과 기초를 이루는 컴퓨터 시스템
③ 데이터 분석 플랫폼의 특징
- 데이터 분석에 필요한 프로그래밍 및 실행, 이를 서비스할 수 있는 환경 제공
- 새로운 데이터 분석 니즈가 발생할 경우 개별 시스템 추가하지 않으면서도 추가적인 서비스 제공이 가능(확장성 증대)
④ 데이터 분석 플랫폼의 구성요소 (볼드처리는 협의의 분석 플랫폼)
분석 서비스 제공 엔진 / 분석 애플리케이션 / 분석 서비스 제공 API / 데이터처리 Framework / 분석 엔진, 분석 라이브러리 / 운영체제(OS) / 하드웨어
5) 데이터 거버넌스
① 데이터 거버넌스의 필요성: 데이터 중복, 비표준화에 따른 정합성 오류 발생 가능성
② 데이터 거버넌스의 정의: 전사 차원의 모든 데이터에 대해 표준화된 관리 체계 수립 및 운영 프레임워크와 저장소 구축
③ 데이터 거버넌스의 주요 관리 대상
- 마스터 데이터: 마스터 파일을 형성하는 데이터, 데이터를 처리 및 조작하기 위해 사용되는 기본 데이터
- 메타 데이터: 다른 데이터를 설명하기 위해 사용되는 데이터
- 데이터 사전: 효과적인 데이터 자원관리 위해 사전처럼 저장해놓은 데이터
④ 데이터 거버넌스의 특징
- 가용성, 유용성, 통합성, 보안성, 안전성 확보 가능
⑤ 빅데이터 거버넌스의 특징
- 빅데이터 효율적 관리, 다양한 데이터 관리체계, 데이터 최적화 등
⑥ 데이터 거버넌스의 구성요소
원칙 / 조직 / 프로세스
⑦ 데이터 거버넌스의 체계
데이터 표준화 / 데이터 관리 체계 / 데이터 저장소 관리 / 표준화 활동
6) 데이터 분석 교육 및 마인드 육성 체계
① 데이터 분석 교육 및 마인드 육성을 위한 변화 관리 필요성
② 데이터 분석 문화 도입방안: 준비기 / 도입기 / 안정 추진기
- 적극적 도입 방안 / 데이터 분석 교육 방향 / 데이터 분석 방법 및 분석적 사고 교육
08. 데이터 분석 수준진단
1) 데이터 분석 수준진단 개요
① 데이터 분석 수준진단 필요성: 현 상태에 대한 명확한 점검
② 데이터 분석 수준진단 목표: 각 조직이 현재 수행하고 있는 데이터 분석 수준 명확히 이해 > 수준진단 결과를 바탕으로 목표수준 정의
③ 분석 수준진단 프레임워크
- 6개 영역의 분석 준비도와 3개 영역의 분석 성숙도를 동시에 평가
2) 분석 준비도(Readiness)
① 분석 준비도의 정의: 분석 업무 도입 목적으로 현재 수준을 파악하기 위한 진단방법
② 분석 준비도의 원리: 총 6가지 영역을 대상으로 현재 수준 파악
③ 분석 수준진단 프레임워크
분석 업무 파악 / 인력 및 조직 / 분석 기법 / 분석 데이터 / 분석 문화 / IT 인프라
3) 분석 성숙도 모델
① 분석 성숙도의 정의: 데이터 분석 능력 및 결과 활용에 대한 조직의 성숙도 수준을 평가하여 현재 상태 점검
② 분석 성숙도 모델의 특징
: 비즈니스 부문, 조직 및 역량 부문, IT 부문 총 3개 부문 대상으로 실시 / 성숫도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분
4) 분석 수준진단 결과
① 분석 준비도 및 성숙도 진단 결과
② 사분면 분석: 정착형 / 확산형 / 준비형 / 도입형
예상문제 오답노트
05) 분석 마스터 플랜 수립 시 ROI의 투자비용 요소로 적합하지 않은 것은?
① 데이터 크기(Volume)
② 데이터 가치(Value)
③ 데이터 형태(Variety)
④ 데이터 속도(Velocity)
- 데이터 가치는 ROI의 비즈니스 효과 요소이다!07) 난이도와 시급성을 고려한 포트폴리오 사분면 분석 기법에 대한 설명으로 옳지 않은 것은?
① 가장 우선적으로 분석과제 적용이 필요한 영역은 3사분면이다.
② 우선순위가 낮은 영역은 2사분면이다.
③ 적용 우선순위를 시급성에 둘 경우 순서는 3 > 4 > 1 > 2 순이다.
④ 적용 우선순위 기준을 난이도에 둘 경우 순서는 3 > 2 > 1 > 4 순이다.
- 적용 우선순위 기준을 난이도에 둘 경우 순서는 3 > 1 > 4 > 2 순이다.- 가로축 시급성은 더 급할 수록 오른쪽에 있는 것이 아님!!!!!!!!! 현재 - 미래 순임!!
10) 하향식 접근 방식의 4단계 구성요소가 아닌 것은?
① 문제 탐색
② 문제 정의
③ 문제 분석
④ 해결방안 탐색
- 하향식 접근 방식은 문제 탐색 > 문제 정의 > 해결방안 탐색 > 타당성 평가15) SEMMA 분석 방법론의 분석절차로 올바른 것은?
① 추출 → 수정 → 탐색 → 모델링 → 평가
② 탐색 → 수정 → 추출 → 모델링 → 평가
③ 탐색 → 추출 → 수정 → 모델링 → 평가
④ 추출 → 탐색 → 수정 → 모델링 → 평가17) 빅데이터 분석 방법론의 데이터 준비 단계 세부 태스크가 아닌 것은?
① 필요 데이터 정의
② 분석용 데이터 준비
③ 데이터 스토어 설계
④ 데이터 수집 및 정합성 점검- 분석용 데이터 준비는 데이터 분석 단계 세부 태스크!
'빅데이터분석기사' 카테고리의 다른 글
[빅분기] CH3. 데이터 수집 및 저장 계획_데이터 수집 및 전환 (2) 2024.03.16 [빅분기] CH2. 데이터 분석 계획_분석 작업 계획_240313 (0) 2024.03.13 [빅분기] CH02. 데이터 분석 계획_분석 방안 수립_240310 (0) 2024.03.10 [빅분기] CH01.빅데이터의 이해_빅데이터 기술 및 제도_240310 (0) 2024.03.10 [빅분기] CH01.빅데이터의 이해_빅데이터 개요 및 활용_240306 (1) 2024.03.06