ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 1-1-1. 빅데이터 개요 및 활용
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 13. 20:30

     빅데이터 분석기사  필기 접수를 하고 시험 준비를 위한 정리를 블로그에 틈틈히 하려 합니다.

     책은 이기적(이렇게 기막힌 접중률) 의 빅데이터 분석기사 필기 책을 참고하였는데  브랜드 이름만큼 꼭 이 책의 개념 정리 한것들이 시험에 다 나왔으면 좋겠습니다. 

    부족한 내용이다 궁금한 점들은 자유롭게 댓글로 남겨 주시면 답변 드리겠습니다. 공부의 가장 좋은 방법은 누군가에게 설명하는 것이라 합니다 ㅎㅎ

     

    얼마남지 않은 시험기간동안 모두 파이팅 해보자구요.

     

    01. 데이터와 정보

    1) 데이터의 정의

    - 추론과 추정의 근거를 이루는 사실

    - 현실 세계에서 관찰하거나 측정하여 수집한 사실

     

    2) 데이터의 특징

    - 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.

    - 객관적 사실이라는 존재적 특성을 갖는다.

    - 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다.

     

    3) 데이터의 구분

    (1) 정량적데이터: 주로 숫자로 이루어진 데이터 (2020년, 100km/h등)

    (2) 정성적데이터: 문자와 같은 텍스트로 구성되며 함축적 의미를 지니는 데이터 (철수가 시험에 합격하였다.)

      정량적 데이터 정성적 데이터
    유형 정형 데이터, 반정형 데이터 비정형 데이터
    특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포
    관점 주로 객관적 내용 주로 주관적 내용
    구성 수치나 기호 등 문자나 언어 등
    형태 데이터베이스, 스프레드 시트 웹 로그, 텍스트 파일
    위치 DBMS, 로컬 시스템등 내부 웹사이트, 모바일 플랫폼 등 외부
    분석 통계 분석시 용이 통계 분석 시 어려움

    4) 데이터의 유형

    (1) 정형데이터: 정해진 형식과 구조에 맞게 저장 (RDBMS)

    (2) 반정형 데이터: 데이터의 형식과 구조가 비교적 유연하고 스키마 정보를 데이터와 함께 제공하는 파일형식의 데이터이며, 연산이 불가능하다.(JSON, XML, RDF, HTML)

    (3) 비정형 데이터: 구조가 정해지지 않은 대부분의 데이터(동영상, 이미지, 음성, 문서, 메일)

     

    5) 데이터 근원에 따른 분류

    (1) 가역데이터: 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터로 원본과 1:1관계를 갖는다. 이력 추적이 가능하여, 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다.

    (2) 불가역 데이터: 생산된 데이터의 원본으로 환원이 불가능한 데이터이다. 원본 데이터와는 전혀 다른 형태로 재생산 되기 때문에 원본 데이터의 내용이 변경되었더라도 변경사항을 반영할 수 없다.

      가역 데이터 불가역 데이터
    환원성(추적성) 가능(비가공 데이터) 불가능(가공 데이터)
    의존성 원본 데이터 그 자체 원본 데이터와 독립된 새 객체
    원본과의 관계 1대1의 관계 1대n, n대1 또는 m대n의 관계
    처리과정 탐색 결합
    활용분야 데이터마트, 데이터 웨어하우스 데이터 전처리, 프로파일 구성

    6) 데이터의 기능

    - 데이터를 기반으로 한 암묵지와 형식지의 상호작용이 중요

    (1) 암묵지: 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다.

    (2) 형식지: 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.

     

    7) 지식 창조 매커니즘 4단계

    (1) 공통화: 서로의 경험이나 인식을 공유하여 한 차원 높은 암묵지로 발전시킨다.

    (2) 표출화: 암묵지가 구체화되어 외부(형식지)로 표현된다.

    (3) 연결화: 형식지를 재분류하여 체계화 한다.

    (4) 내면화: 전달받은 형식지를 다시 개인의 것으로 만든다.

    공통화 -> 표출화 -> 연결화 -> 내면화

     

    8) 데이터, 정보, 지식, 지혜

    - 지식의 피라미드 (가치창출 프로세스)

    지혜
    (Wisdom)
    축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물이다.
    (다른 상품들도 온라인 쇼핑 시 오프라인 상점보다 저렴할 것이다.)
    지식
    (Knowledge)
    상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화한 고유의 결과물이다.
    (오프라인 상점보다 저렴한 온라인 쇼핑으로 노트북을 구매할 것이다.)
    정보
    (Information)
    데이터를 가공하거나 처리하여 데이터 간 관계를 분석하고 그 속에서 도출된 의미를 말하며, 항상 유용한 것은 아니다.
    (오프라인 상점보다 온라인 쇼핑 시 노트북 가격이 더 저렴하다.)
    데이터
    (Data)
    현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값으로 개별 데이터로는 그 의미가 중요하지 않은 객관적인 사실이다.
    (온라인 쇼핑 시 노트북 가격은 100만원이며, 오프라인 상점의 노트북 가격은 150만원이다.)

    02. 데이터베이스

    1) 데이터 베이스의 정의

    - 관련된 레코드의 집합

    - 소프트웨어로는 데이터베이스 관리시스템(DBMS)을 의미한다.

     

    2) 데이터베이스 관리시스템(DataBase Management System)

    종류 설명
    관계형 DBMS 계층형 DBMS
    객체지향 DBMS 정보를 객체 형태로 표현하는 모델이다.
    네트워크 DBMS 그래프 구조를 기반으로 하는 모델이다.
    계층형 DBMS 트리 구조를 기반으로 하는 모델이다.

    * SQL(Structured Query Language)

    - 데이터 베이스에 접근할 때 사용하는 언어

    - 단순한 질의기능 + 데이터 정의 + 조작

    - 테이블 단위로 연산 수행

    - 초보자들도 비교적 쉽게 사용 가능

     

    3) 데이터 베이스 특징

    (1) 통합된 데이터(Integrated Data)

    - 동일한 데이터가 중복되어 저장되지 않음

    (2) 저장된 데이터(Stored Data)

    - 컴퓨터가 접근할 수 있는 저장매체에 데이터 저장

    (3) 공용데이터(Shared Data)

    - 여러 사용자가 데이터를 함께 이용

    (4) 변화되는 데이터(Changed Data)

    - 데이터는 현시점의 상태를 나타내며 지속적으로 갱신

     

    데이터 베이스의 장단점
    장점 단점
    - 데이터 중복 최소화
    - 실시간 접근 가능
    - 데이터 보안 강화
    - 논리적 및 물리적 독립성 제공
    - 데이터 일관성 제공
    - 데이터 무결성 보장
    - 데이터 공유 용이
    - 구축과 유지에 따른 비용 발생
    - 백업과 복구 등 관리 필요

     

    4) 데이터 베이스의 활용

    구분 OLTP(OnLine Transaction Processing) OLAP(OnLine Analytical Processing)
    데이터 구조 복잡 단순
    데이터 갱신 동적으로 순간적  정적으로 주기적
    응답 시간 수 초 이내 수초~ 몇분사이
    데이터 범위 수 십일 전후 오랜 기간 저장
    데이터 성격 정규적인 핵심 데이터 비정규적 읽기 전용 데이터
    데이터 크기 수 기가바이트 수 테라바이트
    데이터 내용 현재 데이터 요약된 데이터
    데이터 특성 트랜잭션 중심 주제 중심
    데이터 액세스 빈도 높음  보통
    질의 결과 예측  주기적이며 예측 가능 예측하기 어려움
      데이터 갱신 위주 데이터 조회 위주

    5) 데이터 웨어하우스(DW: Data Warehouse)

    - 데이터만이 아닌 분석 방법까지도 포함하여 조직 내 의사결정을 지원하는 정보관리 시스템이다.

     

    * DW 특징

    특징 내용
    주제지향성
    (Subject-orientation)
    고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 구성된다.
    통합성
    (Integration)
    데이터가 DW에 입력될때는 일관된 형태로 변환되며, 전사적인 관점에서 통합된다.
    시계열성
    (Time-variant)
    DW의 데이터는 일정기간 동안 시점별로 이어진다.
    비휘발성
    (Non-volatilization)
    DW에 일단 데이터가 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경이 수행되지 않는다.

    * 데이터 웨어하우스의 구성 요소

    - 데이터 모델 ( Data Model)

    - ETL(Extract, Transform, Load)

    - ODS( Operational Data Store)

    - DW 메타 데이터

    - OLAP (Online Analytical Processing)

    - 데이터 마이닝(Data Mining)

    - 분석도구

    - 경영기반 솔루션

     

    03. 빅데이터 개요

     

    1) 빅데이터의 등장과 변화

    (1) 빅데이터의 등장배경

    - 데이터 변화: 규모(Volume), 형태(Variety), 속도(Velocity)

    - 기술 변화: 클라우드 컴퓨팅 활용, 새로운 데이터 처리, 저장, 분석기술 및 아키텍쳐

    - 인재, 조직변화

     

    (2) 빅데이터의 등장으로 인한 변화

    - 데이터 처리 시점 이동: 사전처리 -> 사후 처리

    - 데이터 처리범주 확대: 표본조사 -> 전수조사

    - 데이터 가치판단기준 변화: 질보다 양!

    - 데이터 분석 방향 변화: 이론적 인과관계 중심 -> 단순한 상관관계

     

    2) 빅데이터의 특징

    3v: 규모(Volume), 유형(Variety), 속도(Velocity)

    +2v: 품질(Veractiy), 가치(Value)

    = 5v

      전통적 데이터 빅데이터
    규모 GB 이하 TB이상
    처리단위 시간 또는 일 단위 처리 실시간 처리
    유형 정형 데이터 정형+반정형, 비정형 데이터
    처리방식 중앙집중식 분산
    시스템 Relational DBMS Hadoop, HDFS, Hbase, NoSQL 등

     

    3) 빅데이터의 활용

    - 빅데이터의 활용을 위한 3요소: 자원, 기술, 인력

     

    04. 빅데이터의 가치

    2) 빅데이터의 가치 측정의 어려움

    (1) 데이터 활용 방식

    - 데이터 재사용이 일반화 되며 특정 데이터를 누가 언제 사용했는지 알기 어렵다.

    (2) 가치 창출 방식

    - 데이터는 어떤 목적을 갖고 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.

    (3) 분석 기술 발전

    - 데이터는 지금 기술 상황에서는 가치가 없어 보일지라도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.

    (4) 데이터 수집 원가

    - 데이터는 달성하려는 목적에 따라 수집하거나 가공하는 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.

     

    05. 데이터 산업의 이해

    - 데이터 산업은 데이터 처리 - 통합 - 분석 - 연결 - 권리 시대로 진화 하고 있다.

    1) 데이터 산업의 진화

     

    (1) 데이터 처리 시대

    (2) 데이터 통합 시대

    - 데이터 모델링과 데이터베이스 관리 시스템이 등장

    - 데이터 조회와 보고서 산출, 원인 분석 등을 위해 데이터 웨어하우스가 도입

    (3) 데이터 분석 시대

    - 하둡, 스파크 등의 빅데이터 기술 등장

    (4) 데이터 연결 시대

    - 데이터 경제의 데이터 연결을 강조하는 의미에서 오픈 API 경제라는 용어가 사용되기도 한다.

    (5) 데이터 권리 시대

    - 마이데이터 등장

    * 데이터 연결과 데이터 권리는 개인 데이터가 완전하게 보호되며 개인은 자신의 데이터를 완전하게 통제 할 ㅜㅅ 있다는 믿음이 보편화되어야 한다.

     

    2) 데이터 산업의 구조

    (1) 인프라 영역

    - 데이터 수집, 저장, 분석, 관리 등의 기능 담당

    - 하드웨어 영역과 소프트웨어 영역이 있음

    (2) 서비스 영역

    - 데이터를 활용하기 위한 교육이나 컨설팅, 솔루션을 제공

     

    06. 빅데이터 조직 및 인력

    1) 필요성

    2) 조직의 역할

    3) 조직의 구성

    (1) 집중형

    - 전사 분석 업무를 별도의 전담조직에서 수행

    - 내부에서 전사 분석과제의 전략적 중요도에 따라 우선순위를 정함

    - 현업 부서와 분석 업무가 중복/이원화 가능성 있음

    (2) 기능형

    - 분석 수행의 일반적 구조

    - 각 현업 부서에서 분석 업무를 직접 수행

    - 전사적 관점에서 전략적 핵심 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성 높음

    (3) 분산형

    - 분석 전문 인력을 현업 부서에 배치하여 분석 업무 수행

    - 전사 차원에서 분석과제의 우선순위를 선정하고 수행

    - 분석 결과를 현업에 빠르게 적용 가능

     

    4) 데이터 사이언스 역량

    - 다양한 데이터로부터 지식과 인사이트를 추출

    * 데이터 사이언스 실현을 위한 인문학적 요소

    - 스토리텔링 능력

    - 커뮤니케이션 능력

    - 창의력과 직관력

    - 비판적 시각과 열정

     

    * Hard Skill

    - 빅데이터에 대한 이론적 지식

    - 분석 기술에 대한 숙련

     

    * Soft Skill

    - 통찰력 있는 분석

    - 설득력 있는 전달

    - 다분야 간 협력

    반응형

    댓글

Designed by Tistory.