-
[빅데이터분석기사/필기] 2-1-1. 데이터 전처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 21. 12:55
01. 데이터에 내재된 변수의 이해
1) 데이터 관련 정의
(1) 데이터(Data): 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득
(2) 단위(Unit): 관찰 되는 항목 또는 대상을 지칭
(3) 관측값(Observation): 각 조사 단위별 기록정보 또는 특성을 말한다.
(4) 변수(Variable): 각 단위에서 측정된 특성 결과
(5) 원자료(Raw Data): 표본에서 조사된 최초의 자료를 이야기한다.
2) 데이터의 종류
(1) 단변량자료
- 자료의 특성을 대표하는 특성 변수가 하나인 자료
(2) 다변량 자료
- 자료의 특성을 대표하는 특성변수가 두가지 이상인 자료
(3) 질적자료
- 정성적 자료라고도 하며 자료를 범주의 형태로 분류
- 명목자료: 측정 대상이 범주나 종류에 의해 구분되어지는것을 수치 또는 기호로 분류되는 자료
- 서열자료: 수치나 기호가 서열을 나타내는 자료
(4) 수치자료
- 수치의 크기에 의미를 부여할 수 있는 자료를 나타낸다.
- 구간자료: 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적인 의미를 가지는 자료
- 비율자료: 수치화된 변수에 비율의 개념을 도입할 수 있는 자료
(5) 시계열자료
- 일정한 시간간격 동안에 수집된 자료
(6) 횡적자료
- 횡단면 자료라고도 하며 특정 단일시점에서 여러 대상으로부터 수집된 자료
- 즉 한개의 시점에서 여러 대상으로부터 취합하는 자료
(7) 종적자료
- 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
3) 데이터의 정제
(1) 데이터 정제의 필요성
- 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요
(2) 정제과정을 거치지 않은 데이터의 문제점
- 데이터 구성의 일관성이 없어지므로 분석의 처리에 어려움이 발생
- 도출된 결과의 신뢰성 저하가 발생
(3) 데이터 정제의 과정
- 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정 필요
- 데이터의 수집, 변환, 교정, 통합
02. 데이터 결측값 처리
1) 결측 데이터의 종류
(1) 완전 무작위 결측(MCAR)
- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
(2) 무작위 결측(MAR)
- 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우
(3) 비 무작위 결측(NMAR)
- 결측 변수값이 결측여부(이유)와 관련이 있는 경우
2) 결측값 유형의 분석 및 대치
- x: 나이대별 , y: 성별, z: 체중
- x완전무작위 결측: , y, z와 관계없이 z가 없는경우
- 무작위 결측: y(여성)은 체중공개를 꺼려하는 경향
- 비 무작위 결측: 무거운(가벼운)사람들은 체중 공개 가능성이 적음
2) 결측값 유형의 분석 및 대치
- 효율성문제
- 자료처리의 복잡성
- 편향
(1) 단순 대치법
- Compeltes Analysis
- 평균 대치법
- 회귀 대치법
- 단순확률 대치법
- 최근방 대치법
(2) 다중 대치법
- 1단계(대치단계)
- 2단계(분석단계)
- 3단계(결합단계)
03. 데이터 이상값 처리
- 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값
1) 이상치의 종류 및 발생 원인
(1) 이상치의 종류
- 단변수 이상치
- 다변수 이상치
(2) 이상치의 발생 원인
- 입력실수
: 데이터 입력의 실수 등
- 측정오류
: 측정기 고장으로 발생되는 문제
- 실험오류
: 실험환경에서 야기된 모든 문제점
- 의도적 아웃라이어
: 의도가 포함된 이상치의 발생으로 예를들어 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우
- 자료처리오류
: 복수개의 데이터 셋에서 데이터를 추출, 조합하여 분석 시, 분석전의 전처리에서 발생하는 에러
- 표본오류
: 모집단에서 표본을 추출하는 과정에서 Bias가 발생하는 경우
- 이외 경우 -> 자연적 이상치
2) 이상치의 문제점
(1) 기초( 통계적) 분석결과의 신뢰도 저하
(2) 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
- 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다.
반응형'program_language 및 궁금한것 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터분석기사/필기] 2-2-1. 분석변수 처리 (0) 2021.09.22 [빅데이터분석기사/필기] 2-1-2. 분석변수 처리 (0) 2021.09.22 [빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장 (0) 2021.09.20 [빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환 (0) 2021.09.20 [빅데이터분석기사/필기] 1-2-2. 분석 작업 계획 (0) 2021.09.18