빅데이터분석기사
-
[빅분기] CH2. 데이터 탐색_데이터 탐색의 기초, 고급 데이터 탐색빅데이터분석기사 2024. 3. 27. 20:14
24.03.26 p.236 - p.265 개념공부 및 예상문제 풀이 예상문제 오답노트_데이터 탐색의 기초 01) 탐색적 데이터 분석 및 필요성에 대한 설명으로 틀린 것은? ① 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것이다. ② 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해할 수 있다. ③ 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정할 수 있다. ④ 최초의 가설에 집중하여 원하는 패턴과 양상에 맞는지에 집중하여 검증하는 데 노력한다. - 새로운 양상을 발견하면 가설을 수정하는 방식으로 진행한다. 10) 포트폴리오의 투자수익률, GDP 성장률 등의 연간 자료에 대해서 알맞은 기술적 통계량인 평균은 무엇인가? ① 산술평균 ② ..
-
[빅분기] CH1. 데이터 전처리_분석 변수 처리빅데이터분석기사 2024. 3. 19. 22:09
24.03.19 01. 변수 선택 1) 회귀분석의 사례 2) 변수별 모형의 분류 ① 전체 모형: 모든 독립변수를 사용한 모형으로 정의 ② 축소 모형: 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형 ③ 영 모형: 독립변수가 하나도 없는 모형 의미 3) 변수의 선택 방법 ① 전진 선택법 - 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계ㅜ의 절댓값이 가장 큰 변수를 분석모형에 포함시킴 - 부분 F 검정을 통해 유의성 검증을 시행해, 유의한 경우 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수선택 없이 과정을 중단 - 한번 추가된 변수는 제거하지 않는 것이 원칙 ② 후진 선택법, 후진 소거법 - 전체모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가..
-
[빅분기] CH1. 데이터 전처리_데이터 정제빅데이터분석기사 2024. 3. 18. 21:18
24.03.18 01. 데이터에 내재된 변수의 이해 1) 데이터 관련 정의 ① 데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 기호화/수치화된 자료를 말함 ② 단위(Unit): 관찰되는 항목 또는 대상을 지칭 ③ 관측값(Observation): 각 조사 단위별 기록정보 또는 특성 ④ 변수(Variable): 각 단위에서 측정된 특성 결과 ⑤ 원자료(Raw Data): 표본에서 조사된 최초의 자료 2) 데이터의 종류 ① 단변량자료(Univariate Data): 자료의 특성을 대표하는 특성 변수가 하나인 자료 ② 다변량자료(Multivariate Data): 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료 ③ 질적자료(Qualitative Data): 정성적 or 범주형 자..
-
[빅분기] CH3. 데이터 수집 및 저장 계획_데이터 적재 및 저장빅데이터분석기사 2024. 3. 17. 22:43
24.03.17 01. 데이터 적재 1) 데이터 적재 도구 - 수집한 데이터는 저장 시스템에 적재해야 함! 적재할 데이터의 유형과 실시간 처리 여부에 따라 다름 ① 데이터 수집 도구를 이용한 데이터 적재 - 로그 수집을 해야 하는 각 서버에 Fluentd를 설치하면 서버에서 로그를 수집해서 중앙 로그 저장소로 전송함 - 플루언티드(Fluentd): 트레저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어! : 사용자의 로그를 다양한 형태로 입력받아 JSON 포맷으로 변한 뒤 다양한 형태로 출력함! - 플럼(Flume): 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어 : 로그 데이터 수집과 네트워크 트래픽 데이터, 소셜 미디어 데이터, 이메일 메시지 데이..
-
[빅분기] CH3. 데이터 수집 및 저장 계획_데이터 수집 및 전환빅데이터분석기사 2024. 3. 16. 16:07
24.03.16 01. 데이터 수집 1) 데이터 수집 수행 자료 - 용어집 / 서비스 흐름도 / 업무 매뉴얼 / 데이터 명세서 / 데이터 수집 계획서 / 원천 데이터 담당자 정보 / 인프라 구성도 - 원천 데이터 소유 기관 정보 / 데이터 수집 기술 매뉴얼 / 소프트웨어 아키텍처 개념도 / 수집 솔루션 매뉴얼 / 하둡 오퍼레이션 매뉴얼 수집 데이터 유형 파악 → 수집 기술 결성 → 아키텍처 수립 → 하드웨어 구출 → 실행환경 구축 2) 비즈니스 도메인과 원천 데이터 정보 수집 ① 비즈니스 도메인 정보 - 비즈니스 모델 / 비즈니스 용어집 / 비즈니스 프로세스 / 도메인 전문가 인터뷰 ② 원천 데이터 정보 - 데이터의 수집 가능성 / 데이터의 보안 / 데이터 정확성 / 수집 난이도 / 수집 비용 3) 내 ..
-
[빅분기] CH2. 데이터 분석 계획_분석 작업 계획_240313빅데이터분석기사 2024. 3. 13. 22:58
24.03.13 01. 분석 작업 개요 1) 데이터 처리 영역 - 데이터 분석을 위한 기초 데이터를 정의, 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역 - 데이터 소스 / 데이터 수집 / 데이터 저장 / 데이터 처리 2) 데이터 분석 영역 ① 데이터 분석: 저장된 데이터를 추출 및 가공해 목적에 맞는 분석 방법 통해 분석 도메인 이슈 도출 / 분석목표 수립 / 프로젝트 계획 수립 / 보유 데이터 자산 확 ② 데이터 표현: 분석된 겨로가를 누구나 쉽게 이해할 수 있도록 적합한 시각화 방법 이용해 표현 02. 데이터 확보 계획 1) 데이터 확보를 위한 사전 검토사항 ① 필요 데이터의 정의 ② 보유 데이터의 현황파악 ③ 분석 데이터의 유형 ④ 편향되지 않고 충분한 양의 데이터 규모 ⑤ 내..
-
[빅분기] CH2. 데이터 분석 계획_분석 방안 수립_240311빅데이터분석기사 2024. 3. 11. 23:46
24.03.11 04. 분석 문제 정의 1) 분석 문제 정의 개요 ① 분석 과제 도출: 해결해야 할 다양 한 문제들을 데이터 분석 문제로 변환하여 과제정의서 형태로 도출 ② 대표적인 분석 과제 도출 방법 - 하향식 접근 방식: 문제가 먼저 주어지고 이에 대한 해법을 찾아감 - 상향식 접근 방식: 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색 ③ 최적의 의사결정을 위한 혼합방식 - 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행, 상호 보완을 통해 분석의 가치 극대화 (상향 - 발산, 하향 - 수렴) ④ 분석 과제 정의 2) 하향식 접근 방식 - 문제가 주어지고 이에 대한 해법 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식 - 문제 탐색 / 문제 정의 / 해결방안 탐색 / 타당성 평가 ..