ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 2-3-1,2. 기술통계/추론통계
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 29. 12:28

    1. 기술통계

     

    01. 데이터 요약

    - 기초 통계량을 산출하여 결과를 도출

     

    02. 표본 추출

    - 모집단

    - 표본

    - 표본추출

     

    1) 전수조사와 표본조사

    (1) 전수조사: 모집단 전체

    (2) 표본조사: 표본 추출 조사

     

    2) 표본추출 오차

    - 과잉 대표

    : 중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상을 지칭

    - 최소 대표

    : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상

    - 표본 추출시 표본의 크기 보다는 대표성을 가지는 표본을 추출하는 것이 중요

     

    3) 표본추출 기법

    (1) 단순무작위 추출

    - 사전지식이 많지 않은 경우 시행하는 방법

    (2) 계통추출

    - 설정간격 사이에서 무작위 추출

    (3) 층화추출

    - 층으로 나누어 추출

    - 모집단 전체에 대한 특성치의 효율적 추정(추론)이 필요한 경우 시행

    (4) 군집추출

    - 여러개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석

    - 모집단에 대한 추출기반을 마련하기가 어려운 경우 사용하면 편리

    - 표본크기가 같은 경우 단순 임의추출에 비해 표본오차가 증대할 가능성 있음

     

    03. 확률분포

    - 기술통계

    - 추측(추론)통계

     

    1) 확률의 개념

    - 통계적 현상

    - 확률 실험

     

    (1) 확률

    - 통계적 현상의 확실함의 정도를 나타내는 척도, 랜덤 시행에서 어떠한 사건이 일어날 정도를 나타내는 사건에 할당된 수들을 말함

    - 수학적 확률

    : 표본공간 S의 각 근원 사건이 일어날 가능성이 동등할때 사건 A에 대하여 n(A)/n(S)를 사건 A의 수학적 확률이라 함

    - 통계적 확률

    : 일반적인 자연 현상이나 사회현상에서 일어날 가능성이 동일한 현상은 드물고 분명하지 않은 경우가 대부분

     

    (2) 사건

    (3) 표본공간

    (5) 확률의 기본성질

    (5) 조건부 확률

    (6) 결합 확률(확률의 곱셈)

    - 사건 A와 B가 동시에 발생하는 활률로 이를 확률의 곱셈 법칙이라고 한다.

    - P(A) x P(B) = P(A ∩ B)

    - 독립사건은 두사건이 서로 영향을 주지 않는 상태

    - 배반사건은 두 사건이 동시에 일어날수 없을때, A ∩ B = ø 

     

    2) 확률 변수

    (1) 확률변수

    - 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값

    (2) 확률변수의 종류

    - 이산확률변수: 값의 수가 유한

    - 연속확률변수: 값의 수가 무한

     

    3) 확률분포

    (1) 이산확률분포

    - 확률질량함수

    (2) 연속확률분포

    - 확률밀도함수

    (3) 확률분포함수

    - 이산확률분포함수

    - 연속확률변수함수

     

    4) 확률변수의 기댓값과 분산

    (1) 기댓값

    E(aX + b) = aE(X) + b

    E(X+Y) = E(X) + E(Y)

     

    (2) 분산

    Var(aX) = a^2Var(X)

    Var(X+b) = Var(X)

    Var(aX+b) = a^2Var(X)+b

    Var(X+Y) = Var(X) + Var(Y) - 2Cov(X,Y)

     

    5) 이산확률분포의 종류

    (1) 베르누이분포

    • 결과가 성공 아니면 실패
    • 확률질량함수 f(x) = p
    • 기댓값 E(X) = p
    • 분산 Var(X) = pq

    (2) 이항분포

    • 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
    • 확률질량함수 = f(x) = 
    • 기댓값 E(X) = np
    • 분산 Var(X) = npq

    (3) 다항분포

    • 여러개의 값을 가질 수 있는 독립확률변수들에 대한 확률분포
    • 확률질량함수
    • 기댓값 E(Xi) = npi
    • 분산 Var(X) = npi(1-pi)

    (4) 포아송분포

    • 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현
    • 확률질량함수
    • 기댓값 E(X) = 
    • 분산 Var(X) = 

    (5) 기하분포

    • 베르누이시행에서 처음 성공까지 시도한 횟수를 분포화
    • 확률질량함수
    • 기댓값E(X) = 1/p
    • 분산 Var(X) = q/p^2

    (6) 초기하분포

    • 비복원 추출에서 N개중에 n개를 추출했을 때 원하는것 k개가 뽑힐 확률을 나타냄
    • 확률질량함수
    • 기댓값
    • 분산

     

    6) 연속확률분포의 종류

    (1) 정규분포

    - 정규분포는 종모양인 확률밀도함수의 그래프를 띤다.

    - 정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다.

    - 분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체 면적은 1이다.

    - 정규분포를 가지는 확률변수, 즉 정규확률변수는 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는다.

    - 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 -<X<+이다.

     

    (2) 표준정규분포

    - 평균 μ=0, 표준편차 σ=1이 되도록 한 정규분포이다.

    - Z = X-μ / σ

     

    (3) 카이제곱분포

    - k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포

    - 자유도: k를 지칭하는 것으로 카이제곱분포의 매개변수가 된다.

     

    (4) 스튜던트 t분포

    - 자유도가 클 수록 정규분포에 모양이 수렴

    - 자유도가 1보다 클 때만 스튜던트 t분포에서 기대값은 0

    - 스튜던트 t분포는 정규분포의 평균 측정 시 주로 사용하는 분포이다. 분포의 모양은 Z-분포와 유사하다. 종 모양으로서 t=0에 대하여 대칭을 이루는데 t-곡선의 모양을 결정하는 것은 자유도 이다.

     

    (5) F 분포

     

    (6) 기타

    - 지수분포, 감마분포, 파렛트 분포 등이 있다.

     

    04. 표본분포

     

    1) 모집단 분포와 표본분포

    (1) 모집단의 모수

    - 모집단의 평균 μ, 모집단의 표준편차 σ

    - 모집단의 특성을 나타내는 특성값은 모수

    (2) 표본의 통계량

    - 표본집단의 평균 X, 표본집단의 표준편차 S

    - 표본집단의 특성을 나타내는 특성값은 통계량

     

    2) 표본평균의 표본분포

    - 모집단으로부터 표본을 추출하였을때 얻을 수 있는 모든 표본평균값(X)을 확률변수로 하는 확률분포

     

    3) 표본평균의 표본분포 통계량

    (1)  표본평균의 표본분포의 평균

    - 표본평균 X의 표본분포의 평균은 모집단의 평균μ과 동일

    (2) 표본평균의 표본분포의 분산(표준편차)

    - 모집단의 표준편차가 σ이면 표준편차는 σ / √n이라고 정의, 특히 표본평균의 표본분포는 N( μ, σ / √n )인 정규분포를 따름

    (3) 표준오차

    - 모집단 크기가 무한대: σ / √n

    - 모집단 크기가 유한대:

     

    4) 중심극한 정리

    (1) 린데베르그-레비 중심극한정리

     

    5) 표본평균의 표준화

    (1) 표본평균 X는 정규분포의 확률변수로써 평균이 μ, 표준편차 σ / √n이므로 표준화 공식은 ...가 된다.( 기호 쓰기가 넘 어려움 ㅠㅠ)

    (2) 표준화 Z는 확률변수인 표본평균 X가 표본평균인 μ로부터 표본평균들의 표준편차인 표준오차의 몇 배만큼 떨어져 있는가를 표시하는 것

    (3) 표본평균의 구간확률

    - 표준화 Z를 통해서 표본 평균을 표준화한 후 표준정규분포표를 이용하여 확률을 찾으면 된다.

     

    6) 표본비율

    - 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율 P = X/n

    * 모비율

    - 모집단에서 성공으로 나타나는 개체 수의 비율

     

    7) 표본비율의 표본분포

    - 표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포

     

    2. 추론통계

    - 통계적추론 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불린다. 이것은 기술 통계학과 구별되는 개념

    (1) 추정

    (2) 가설검정

     

    01. 점추정

    - 모수에 대한 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정

    - 모수: 모집단의 특성을 수치화하여 나타낸것(평균, 분산)

    1) 추정량의 선택기준

    (1) 불편성

    (2) 효율성

    (3) 일치성

    (4) 충분성

     

    2) 점추정량

    - 모집단의 특성을 단일값으로 추정(특정) 하는 것을 말한다.

    - 대표적인 점추정량으로 표본균, 표본분산 등이 있으며 이외에도 단일값으로 표현되는 중앙값 등을 추정량으로 사용하기도 한다.

    - 대표적인 점추정량: 표본균, 표본분산- 점추정 방법: 적률방법, 최대우도추정법

     

    3) 적률 방법(1) 적률- 양수 n에 대해 확률변수 X^n의 기댓값 E(X^n)을 확률변수 X의 원점에 대한 n차 적률이라고 한다.(2) 표본평균을 이용한 모수(평균)의 점추정 시 적률에 의한 방법- m개의 모수가 있다면, n개의 표본으로부터 m개의 적률을 이용해 모수의 추정값을 얻는다.

     

    4) 편향- 기대하는 추정량과 모수의 차이, 표본에서 얻어낸 추정량은 모수에 가까울 수록 좋다.

    (1) 편향

    (2) 불편추정량

     

    5) 평균제곱오차

    - 정확도에 대한 척도로 많이 사용

     

    6) 유효 추정량

    - 두개의 점추정량과의 비교 형태로 우위를 결정하는 개념으로 분산이 작다는 곧 편차가 작다이다.

     

    7) 최대우도점추정

    (1) 우도함수

    (2) 최대 우도 추정

     

    02. 구간 추정

     

    1) 구간추정의 개념

    - 모집단의 특성을 담아내는 구간을 표본자료로부터 산출하는 방법

    - 점추정에 오차의 개념을 도입

    (1) 일반화

    (2) 신뢰도, 신뢰구간

     

    2) 모평균의 구간추정

    (1) 모집단의 분산을 알고 있는 경우

    (2) 모집단의 분산을 모르는 경우

    - t-분포는 자유도가 작을때는 정규분포에 비해 넓게 퍼진 모양을 갖지만, 자유도가 클때는 정규분포에 거의 접근하게 된다.

    (3) 모평균 신뢰구간 정리

    - 모집단의 분산을 아는 경우

    - 모집단의 분산을 모르는 경우(표본크기가 작은 경우)

    - 모집단의 분산을 모르는 경우(표본크기가 크 경우)

     

    3) 모분산의 신뢰구간

     

    4) 모비율의 신뢰구간

     

    03. 가설검정

    - 모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법

    - 검정통계량

    - 가설검정

     

    1) 가설검정의 절차

    (1) 가설의 설정

    - 오류의 허용확률을 정해 놓고 그 기준에 따라 가설의 채택이나 기각을 결정

    - 귀무가설: 통념적으로 믿어지고 있는 모수에 대한 주장, 원래의 기준이 되는 가설

    - 대립가설: 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설

    (2) 유의수준 a

    - 표본에서 얻은 표본통계량이 기각역에 들어갈 확률

    - 제 1종오류: 귀무가설이 참일때 귀무가설을 기각하는 오류 / 무죄인데 유죄라 할경우

    - 제 2종오류: 귀무가설이 거짓인데 귀무가설을 채택할 오류 or 대립가설이 참일때 귀무가설을 채택 / 유죄인데 무죄

    * 유의수준

    - 제1종 오류를 범할 확률의 최대 허용한계를 유의 수준 또는 위험률 이라고 하며 가설검정에서 판단의 기준

    - 가설검정의 유의수준 a는 귀무가설이 참인데도 이것을 기각하게 될 확률을 말함. 일반적으로 1%, 5%, 10% 유의수준 등이 많이 이용

    - 귀무가설이 맞는데 틀렸다고 결론 내렸을 확률

    - p-value = 잘못 기각할 확률

     

    2) 검정통계량 및 표본분포의 결정

    - 모수에 대한 정보는 표본에 함축되어 있다. 따라서 표본을 통하여 가설의 채택 여부를 결정짓게 되는데 이때 사용되는 표본 통계량을 검정통계량이라 한다.

    - 유유의 수준에 따른 귀무가설의 기각역을 결정하기 위해서, 귀무가설이 참일때 검정통계량의 확률분포를 알아야만 하며, 알려져 있지 않을 때에는 통계학의 극한이론에 근거하여 근사적인 분포가 정해져야 한다.

     

    3) 기각역의 결정

    - 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우에는 모집단에 대해 설정한 귀무가설을 기각하게 된다.

    - 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역

    - 기각역의 경계값 = 임계치

    * 임계치

    - 주어진 유의수준 a에서 귀무가설의 채택과 기각에 관련된 의사결정을 할때 그 기준이 되는 점

     

    4) 검정통계량의 계산

    (1) 의사결정

    (2) 통계량의 계산과 임계치의 비교

    (3) p-value

    p-value < a : 귀무가설 기각

    p-value > a : 귀무가설 채택

     

    5) 표본의 평균 검정

    - 단을표본에서 모평균에 대한 검정은 표본평균 X를 이용

    (1) 집단크기에 따른 검정 통계량의 선택

    - 대표본 또는 모집단이 정규분포

    - 정규분포 따르면서 소표본

    (2) 가설의 검정: μ에 대한 검정 절차

    (3) 검정 통계량: Z-검정 또는 t-검정을 시행

    (4) 검정: a오류값의 Z-검정 또는 T-검정과 비교

     

    6) 두 독립표본의 평균차이 검정

    (1) 가설의 설정

    (2) 검정 통계량 설정

    (3) 기각역의 설정

     

    7) 대응표본(쌍체비교)의 평균차이 검정

    - 실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍의 실험단위에서 랜덤하게 선택하여 두 처리를 적용하고, 각 쌍에서 관측값의 차를 이용하여 두 모평균의 차에 관한 추론 문제를 다룰 수 있다.

    (1) 통계량의 설정

    (2) 가설의 설정

    (3) 검정통계량 및 표본분포

    (4) 기각역의 설정

    반응형

    댓글

Designed by Tistory.