-
[빅데이터분석기사/필기] 2-2-1. 분석변수 처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 10:00
01. 데이터 탐색의 개요
1) 탐색적 데이터 분석(EDA)
2) 탐색적 데이터 분석의 필요성
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해
- 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음
- 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정
- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다
3) 분석과정 및 절차
- 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인
- 데이터 결측치의 유무, 이상치의 유무 등을 확인
- 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인
- 관계속성 확인 절차
4) 이상치의 검출
(1) 개별 데이터 관찰
(2) 통계값 활용
- 데이터 중심: 평균, 중앙값, 최빈값
- 데이터 분산도: 범위, 분산
- 평균에는 집합내 모든 데이터 값이 반영되기 때문에, 이상값이 있으면 값이 영향을 받는다.
(3) 시각화 활용
- 확률밀도 함수, 히스토그램, 점플롯, 워드 클라우드, 시계열 차트, 지도
(4) 머신러닝 기법 활용
02. 상관관계분석
1) 변수간의 상관성 분석
- 두 변수간의 관계의 강도를 상관관계라 한다.
(1) 단순상관분석
(2) 다중상관분석
* 편상관계분석
2) 상관분석의 기본가정
(1) 선형성: 두 변인 x와 y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.
(2) 동변량성: x의 값에 관계없이 y의 흩어진 정도가 같은 것을 의미
(3) 두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것
(4) 무선독립표본: 모집단에서 표본을 뽑을때 표본대상이 확률적으로 선정된다는 것
3) 상관분석 방법
(1) 피어슨 상관계수
- 두 변수 x와 y간의 선형 상관관계를 계량화한 수치
- 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계없음, -1은 완벽한 음의 선형 상관관계를 의미
(2) 스피어만 상관계수
03. 기초통계량의 추출 및 이해
1) 중심화 경향 기초 통계량
(1) 산술평균
(2) 기하평균
(3) 중앙값
(4) 최빈값
(5) 분위수
2) 산포도(분산도)
(1) 분산, 표준편차
(2) 범위
(3) 평균 절대 편차
(4) 사분위편차
- 자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 Q1을 구하고 3/4에 해당하는 Q3을 구한다. 사분위 편차는 Q3-Q1로 정의
ex) 8,10,12,13,15,17,17,18,19,23,24
Q11=(11+1)*(25/100) = 3 = 12
Q3=(11+1)*(75/100) = 9 = 19
19-12 = 7
(5) 변동계수
3) 자료의 분포형태
(1) 왜도
- 분포가 어느 한쪽으로 치우친 정도를 나타내는 척도
- 오른쪽으로 더 길면 양의값, 왼쪽으로 더 길면 음의 값, 좌우대칭 0
(2) 첨도
- 분포의 뾰족한 정도를 나타내는 통계적 척도
04. 시각적 데이터 탐색
1) 통계적 시각화 도구
- 도수분포표
- 히스토그램
- 막대그래프
- 파이차트
- 산점도- 줄기 잎 그림
- 상자 수염 그림
반응형'program_language 및 궁금한것 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터분석기사/필기] 2-3-1,2. 기술통계/추론통계 (0) 2021.09.29 [빅데이터분석기사/필기] 2-2-2. 고급 데이터 탐색 (0) 2021.09.25 [빅데이터분석기사/필기] 2-1-2. 분석변수 처리 (0) 2021.09.22 [빅데이터분석기사/필기] 2-1-1. 데이터 전처리 (0) 2021.09.21 [빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장 (0) 2021.09.20