ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 2-1-1. 데이터 전처리
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 21. 12:55

    01. 데이터에 내재된 변수의 이해

     

    1) 데이터 관련 정의

    (1) 데이터(Data): 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득

    (2) 단위(Unit): 관찰 되는 항목 또는 대상을 지칭

    (3) 관측값(Observation): 각 조사 단위별 기록정보 또는 특성을 말한다.

    (4) 변수(Variable): 각 단위에서 측정된 특성 결과

    (5) 원자료(Raw Data): 표본에서 조사된 최초의 자료를 이야기한다.

     

    2) 데이터의 종류

    (1) 단변량자료

    - 자료의 특성을 대표하는 특성 변수가 하나인 자료

    (2) 다변량 자료

    - 자료의 특성을 대표하는 특성변수가 두가지 이상인 자료

    (3) 질적자료

    - 정성적 자료라고도 하며 자료를 범주의 형태로 분류

    • 명목자료: 측정 대상이 범주나 종류에 의해 구분되어지는것을 수치 또는 기호로 분류되는 자료
    • 서열자료: 수치나 기호가 서열을 나타내는 자료

    (4) 수치자료

    - 수치의 크기에 의미를 부여할 수 있는 자료를 나타낸다.

    • 구간자료: 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적인 의미를 가지는 자료
    • 비율자료: 수치화된 변수에 비율의 개념을 도입할 수 있는 자료

    (5) 시계열자료

    - 일정한 시간간격 동안에 수집된 자료

    (6) 횡적자료

    - 횡단면 자료라고도 하며 특정 단일시점에서 여러 대상으로부터 수집된 자료

    - 즉 한개의 시점에서 여러 대상으로부터 취합하는 자료

    (7) 종적자료

    - 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

     

    3) 데이터의 정제

    (1) 데이터 정제의 필요성

    - 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요

    (2) 정제과정을 거치지 않은 데이터의 문제점

    - 데이터 구성의 일관성이 없어지므로 분석의 처리에 어려움이 발생

    - 도출된 결과의 신뢰성 저하가 발생

    (3) 데이터 정제의 과정

    - 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정 필요

    - 데이터의 수집, 변환, 교정, 통합

     

    02. 데이터 결측값 처리

    1) 결측 데이터의 종류

    (1) 완전 무작위 결측(MCAR) 

    - 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우

    (2) 무작위 결측(MAR)

    - 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우

    (3) 비 무작위 결측(NMAR)

    - 결측 변수값이 결측여부(이유)와 관련이 있는 경우

     

    2) 결측값 유형의 분석 및 대치

    - x: 나이대별 , y: 성별, z: 체중

    - x완전무작위 결측: , y, z와 관계없이 z가 없는경우

    - 무작위 결측: y(여성)은 체중공개를 꺼려하는 경향 

    - 비 무작위 결측: 무거운(가벼운)사람들은 체중 공개 가능성이 적음

     

    2) 결측값 유형의 분석 및 대치

    - 효율성문제

    - 자료처리의 복잡성

    - 편향

    (1) 단순 대치법

    - Compeltes Analysis

    - 평균 대치법

    - 회귀 대치법

    - 단순확률 대치법

    - 최근방 대치법

    (2) 다중 대치법

    - 1단계(대치단계)

    - 2단계(분석단계)

    - 3단계(결합단계)

     

    03. 데이터 이상값 처리

    - 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값

     

    1) 이상치의 종류 및 발생 원인

    (1) 이상치의 종류

    - 단변수 이상치

    - 다변수 이상치

    (2) 이상치의 발생 원인

    - 입력실수

    : 데이터 입력의 실수 등

    - 측정오류

    : 측정기 고장으로 발생되는 문제

    - 실험오류

    : 실험환경에서 야기된 모든 문제점

    - 의도적 아웃라이어

    : 의도가 포함된 이상치의 발생으로 예를들어 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우

    - 자료처리오류

    : 복수개의 데이터 셋에서 데이터를 추출, 조합하여 분석 시, 분석전의 전처리에서 발생하는 에러

    - 표본오류

    : 모집단에서 표본을 추출하는 과정에서 Bias가 발생하는 경우

    - 이외 경우 -> 자연적 이상치

     

    2) 이상치의 문제점

    (1) 기초( 통계적) 분석결과의 신뢰도 저하

    (2) 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하

    - 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다.

     

    반응형

    댓글

Designed by Tistory.