ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 2-2-1. 분석변수 처리
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 10:00

    01. 데이터 탐색의 개요

    1) 탐색적 데이터 분석(EDA)

    2) 탐색적 데이터 분석의 필요성

    - 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해

    - 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음

    - 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정

    - 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다

    3) 분석과정 및 절차

    - 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인

    - 데이터 결측치의 유무, 이상치의 유무 등을 확인

    - 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인

    - 관계속성 확인 절차

    4) 이상치의 검출

    (1) 개별 데이터 관찰

    (2) 통계값 활용

    - 데이터 중심: 평균, 중앙값, 최빈값

    - 데이터 분산도: 범위, 분산

    - 평균에는 집합내 모든 데이터 값이 반영되기 때문에, 이상값이 있으면 값이 영향을 받는다.

    (3) 시각화 활용

    - 확률밀도 함수, 히스토그램, 점플롯, 워드 클라우드, 시계열 차트, 지도

    (4) 머신러닝 기법 활용

     

    02. 상관관계분석

    1) 변수간의 상관성 분석

    - 두 변수간의 관계의 강도를 상관관계라 한다.

    (1) 단순상관분석

    (2) 다중상관분석

    * 편상관계분석

     

    2) 상관분석의 기본가정

    (1) 선형성: 두 변인 x와 y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.

    (2) 동변량성: x의 값에 관계없이 y의 흩어진 정도가 같은 것을 의미

    (3) 두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것

    (4) 무선독립표본: 모집단에서 표본을 뽑을때 표본대상이 확률적으로 선정된다는 것

     

    3) 상관분석 방법

    (1) 피어슨 상관계수

    - 두 변수 x와 y간의 선형 상관관계를 계량화한 수치

    - 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계없음, -1은 완벽한 음의 선형 상관관계를 의미

    함께걷는아이들 공식블로그 참고

     

    (2) 스피어만 상관계수

     

    03. 기초통계량의 추출 및 이해

    1) 중심화 경향 기초 통계량

    (1) 산술평균

    (2) 기하평균

    (3) 중앙값

    (4) 최빈값

    (5) 분위수

     

    2) 산포도(분산도)

    (1) 분산, 표준편차

    (2) 범위

    (3) 평균 절대 편차

    (4) 사분위편차

    - 자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 Q1을 구하고 3/4에 해당하는 Q3을 구한다. 사분위 편차는 Q3-Q1로 정의

    ex) 8,10,12,13,15,17,17,18,19,23,24

    Q11=(11+1)*(25/100) = 3 = 12

    Q3=(11+1)*(75/100) = 9 = 19

    19-12 = 7

     

    (5) 변동계수

     

    3) 자료의 분포형태

    (1) 왜도

    - 분포가 어느 한쪽으로 치우친 정도를 나타내는 척도

    - 오른쪽으로 더 길면 양의값, 왼쪽으로 더 길면 음의 값, 좌우대칭 0

    (2) 첨도

    - 분포의 뾰족한 정도를 나타내는 통계적 척도

    첨도- 별이 비치는 창가 참고

     

    04. 시각적 데이터 탐색

    1) 통계적 시각화 도구

    - 도수분포표

    - 히스토그램

    - 막대그래프

    - 파이차트

    - 산점도- 줄기 잎 그림

    - 상자 수염 그림

    반응형

    댓글

Designed by Tistory.