ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 20. 19:38

    01. 데이터 수집

    1) 데이터 수집 개요

    - 여러 장소에 있는 데이터를 한곳으로 모으는 것

     

    * 데이터 수집 시스템 구축 절차

    수집 데이터 유형 파악 -> 수집 기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축

     

    2) 비즈니스 도메인과 원천 데이터 정보 수집

    (1) 비즈니스 도메인 정보

    - 비즈니스 모델

    - 비즈니스 용어집

    - 비즈니스 프로세스

     

    (2) 원천 데이터 정보

    - 데이터의 수집 가능성

    - 데이터의 보안

    - 데이터의 정확성

    - 수집 난이도

    - 수집 비용

     

    3) 내, 외부 데이터 수집

    (1) 데이터의 종류

    * 내부 데이터

    - 서비스 시스템

    - 네트워크 및 서버 장비

    - 마케팅 데이터

    * 외부 데이터

    - 소셜 데이터

    - 특정기관 데이터

    - M2M 데이터

    - LOD(Linked Open Data)

     

    4) 데이터 수집 기술

    (1) 데이터 유형별 데이터 수집 기술

    데이터 유형 데이터 수집기술
    정형 데이터 Sqoop, Vendor 제공 Driver, API
    로그/센서 데이터 Flume, Scribe, Chukwa, FTP, TCP, 블루투스, RFID
    텍스트, 이미지, 동영상데이터 HTTP, FTP, API, Parsing 기술
    웹 및 소셜 데이터 Pure 프로그래밍(C, Java), Library, Scrapy, Nutch, Crawler4j

     

    02. 데이터 유형 및 속성 파악

     

    1) 데이터 수집 세부 계획 작성

    - 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서를 작성

    2) 데이터 저장 방식

    (1) 파일 시스템

    (2) 관계형 데이터베이스

    (3) 분산처리 데이터 베이스

    3) 데이터 적절성 검증

    (1) 데이터 누락 점검

    (2) 소스 데이터와 비교

    (3) 데이터의 정확성 점검

    (4) 보안 사항 점검

    (5) 저작권 점검

    (6) 대량 트래픽 발생 여부

     

    03. 데이터 변환

    1) 데이터 변환

    (1) 데이터 변환 방식 종류

    - 비정형 데이터를 정형 데이터 형태로 저장하는 방식

    - 수집 데이터를 분산파일 시스템으로 저장하는 방식

    - 주제별, 시계열적으로 저장하는 방식

    - 키-값 형태로 저장하는 방식

     

    2) 데이터 베이스 구조 설계

    (1) DBMS 구축 여부 결정

    (2) 저장 데이터베이스 결정

    (3) DBMS 설치

    (4) 테이블 구조 설계

     

    3) 비정형/반정형 데이터의 변환

    - 비정형/반정형 데이터를 구조적 형태로 전환하여 저장

     

    (1) 수집 데이터의 속성 구조 파악

    (2) 데이터 수집 절차에 대한 수행 코드 정의

    (3) 데이터 저장 프로그램 작성

    (4) 데이터베이스에 저장

     

    4) 융합 데이터베이스 설계

    (1) 요구사항 분석

    (2) 데이터 표준화와 모델링 수행

     

    5) 고려사항

    - 정형화된 데이터베이스로 변환함에 집중

    - 수집 데이터의 속성구조를 정확히 파악

     

    04. 데이터 비식별화

    1) 가명처리

    - 장점: 데이터의 변형 또는 변질 수준이 적다.

    단점: 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지된다.

     

    (1) 휴리스틱 가명화

    (2) 암호화

    (3) 교환방법

     

    2) 총계처리

    - 장점: 민감한 수치 정보에 대하여 비식별 조치가 가능하며 통계분석용 데이터 셋 작성에 유리

    - 단점: 정밀 분석이 어려우며, 집계 수량이 적을 경우 추론에 의한 식별 가능성이 있다.

    (1) 부분총계

    (2) 라운딩

    (3) 재배열

     

    3) 데이터 삭제

    - 장점: 개인 식별요소의 전부 및 일부 삭제 처리가 가능

    - 단점: 분석의 다양성과 분석 결과의 유효성, 신뢰성 저하

     

    (1) 식별자(부분)삭제

    (2) 레코드 삭제

    (3) 식별요소 전부 삭제

     

    4) 데이터 범주화

    (1) 감추기

    (2) 랜덤 라운딩

    (3) 범위 방법

    (4) 제어 라운딩

     

    5) 데이터 마스킹

    (1) 임의 잡음 추가

    (2) 공백과 대체

    * 프라이버시 보호 모델

    k-익명성 / I-다양성 / t-근접석

     

    05. 데이터 품질 검증

    1) 데이터 품질 관리

    (1) 데이터 품질 관리의 정의

    (2) 데이터 품질 관리의 중요성

    - 분석 결과의 신뢰성 확보

    - 일원화된 프로세스

    - 데이터 활용도 향상

    - 양질의 데이터 확보

    2) 데이터 품질 기준

    (1) 정형 데이터 품질 기준

    - 완전성

    - 유일성

    - 유효성

    - 일관성

    - 정확성

    (2) 비정형 데이터 품질 기준

    - 기능성

    - 신뢰성

    - 사용성

    - 효율성

    - 이식성

    3) 정형 데이터 품질 진단

    - 메타데이터 수집 및 분석

    - 칼럼 속성 분석

    - 누락 값 분석

    - 값의 허용 범위 분석

    - 허용 값 목록 분석

    - 문자열 패턴 분석

    - 날짜 유형 분석

    - 기타 특수 도메인 분석

    - 유일 값 분석

    - 구조 분석

    반응형

    댓글

Designed by Tistory.