ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅분기] CH 01.빅데이터의 이해_빅데이터 개요 및 활용_240305
    빅데이터분석기사 2024. 3. 5. 22:04

    24.03.05

    CH 01. 빅데이터의 이해

    Section 01 빅데이터 개요 및 활용

    01. 데이터와 정보

    1) 데이터의 정의: 추론과 추정의 근거 이루는 사실, 현실 세계에서 관찰, 측정하여 수집한 사실

     

    2) 데이터의 특징: 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐

     

    3) 데이터의 구분

    ① 정량적 데이터: 주로 숫자

    ② 정성적 데이터: 문자와 같은 텍스트로 구성, 함축적 의미 지님

     

    4) 데이터의 유형

    정형 데이터 /  반정형 데이터 / ③ 비정형 데이터

     

    5) 데이터 근원에 따른 분류

    - 데이터의 재생산 과정으로 볼 수 있음

    ① 가역 데이터: 환원 가능, 비가공 데이터, 원본 데이터 그 자체, 1대1, 탐색 처리과정

    불가역 데이터: 환원 불가능, 가공 데이터, 원본과 독립된 새 객체, 1대다, 결합 처리과정

     

    6) 데이터의 기능

    ① 암묵지: 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식, 전달과 공유 어려움

    형식지: 형상화된 유형의 지식, 전달과 공유 쉬움

     

    7) 지식창조 매커니즘

    ① 공통화: 서로의 경험이나 인식을 공유해 한 차원 높은 암묵지로 발전시킴

     표출화: 암묵지가 구체화되어 외부(형식지)로 표현됨

    ③ 연결화: 형식지를 재분류하여 체계화

    ④ 내면화: 전달받은 형식지를 다시 개인의 것으로 만듦

     

    8) 지식의 피라미드(가치창출 프로세스)

    ① 지혜: 축적된 지식을 통해 근본적 우너리 이해, 아이디어 결합해 도출한 창의적 산물

    - 다른 상품도 온라인이 오프라인 상점보다 싸다.

    지식: 상호 연결된 정보 구조화, 유의미한 정보를 분류, 개인적인 경험 결합시켜 내재화한 고유의 결과물

    - 오프라인 상점보다 저렴한 온라인 쇼핑으로 옷을 살 것이다.

    ③ 정보: 데이터를 가공하거나 처리해 데이터 간 관계를 분석하고 도출된 의미, 항상 유용한 것은 아님

    - 오프라인 상점보다 온라인 쇼핑할 때 옷이 더 싸다.

    ④ 데이터: 관찰하거나 측정해 수집한 사실, 의미가 중요하지 않은 객관적인 사실

    - 오프라인 옷 가격은 10만원, 온라인 옷 가격은 5만원이다.

     

     

    02. 데이터베이스

    1) 데이터베이스의 정의

    - 체계적이거나 조직적으로 정리되고 전자식 or 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 (저작권법)

    - 동시에 복수의 적용 업무 지원하도록 이용자 요구 대응, 데이터를 받아드리이고 저장, 공급하기 위해 구조에 따라 편성된 데이터의 집합

     - 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

     

    2) 데이터베이스 관리시스템 (DBMS)

    ① 관계형 /  객체지향 / ③ 네트워크 / ④ 계층형

     

    - SQL

    - 데이터베이스에 접근할 때 사용하는 언어

    - 단순히 질의 기능뿐만 아니라 데이터 정의와 조작 기능 갖춤

    - 테이블 단위로 연산 수행, 초보자도 비교적 쉽게 이용 가능

     

    3) 데이터베이스의 특징

    ① 통합된 데이터: 동일한 데이터 중복 저장 X

    ② 저장된 데이터: 컵퓨터가 접근할 수 있는 저장매체에 데이터 저장

    ③ 공용 데이터: 여러 사용자가 서로 다른 목적으로 함께 데이터 이용, 일반적으로 대용량화, 구조 복잡

    ④ 변화되는 데이터: 현시점의 상태를 나ㅏ내며 지속적으로 갱신됨 

     

    <데이터베이스의 장단점>

    - 장점: 데이터 중복 최소화, 실시간 접근 가능, 데이터 보안 강화, 논리적 및 물리적 독립성 제공, 일관성 제공, 무결성 보장, 공유 용이

    - 단점: 구축과 유지에 따른 비용 발생, 백업과 복구 등 관리 필요

     

    4) 데이터베이스의 활용

    ① OLTP: 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스 액세스, 바로 처리 결과를 돌려보내는 형태

    -> 현재 시점의 데이터만을 데이터베이스가 관리한다는 개념 / 갱신 중심

    ② OLAP: 정보 위주의 분석 처리를 하는 것, OLTP에서 처리된 트랜잭션 데이터를 분석해 프로세싱 (다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근해 의사결정에 활용) / 조회 중심

     

    5) 데이터 웨어하우스

    - 사용자 의사결정에 도움을 주기 위해 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스

     

    <데이터 웨어하우스의 특징>

    ① 주제지향성 /  통합성 / ③ 시계열성 / ④ 비휘발성

     

    <데이터 웨어하우스의 구성>

    데이터 모델 / ETL(Extract, Transform, Load) / ODS(Operational Data Store) / DW 메타 데이터 / OLAP(Online Analytical Processing) / 데이터마이닝 / 분석 도구 / 경영기반 솔루션

     

     

    03. 빅데이터개요

    - 빅데이터는 기존 데이터보다 너무 방대해 기존 방법으로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미

    - 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 냄!

     

    1) 빅데이터의 등장과 변화

    ① 빅데이터의 등장 배경: 디지털화, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발달 

    ② 빅데이터의 등장으로 인한 변화

    - 데이터 처리 시점이 사전 처리 -> 사후 처리로 이동

    - 데이터 처리 범주가 표본조사에서 전수조사로 확대됨

    - 데이터의 가치 판단 기준이 질보다 양으로 그 중요도가 달라짐

    - 데이터의 분석 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향 

     

Designed by Tistory.