ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 2-1-2. 분석변수 처리
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 08:15

    01. 변수 선택

     

    1) 변수별 모형의 분류

    • 전체 모형
    • 축소 모형
    • 영 모형

    2) 변수의 선택 방법

    • 전진 선택법
      • 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절대값이 가장 큰 변수를 분석 모형에 포함
      • 부분 F검성을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수 선택 없이 과정을 중단
      • 한번 추가된 변수는 제거하지 않는 것이 원칙
    • 후진 선택법
      • 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순 상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외
      • 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단
      • 한번 제거된 변수는 추가하지 않음
    • 단계적 선택법
      • 전진 선택법과 후진 선택법의 보완방법
      • 전진 선태법을 통해 가장 유의한 변수를 모형에 포함 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거
      • 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복

    02. 차원축소

    1) 차원 축소의 필요성

    (1) 복잡도의 축소

    - 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.

    (2) 과적합의 방지

    - 차원의 증가는 분석모델 파라메터의 증가 및 파라메터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 이것은 분석 모형의 정확도를 저하시킬수있다.

    - 작은 차원만으로 안정적인 결과를 도출해 낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.

    (3) 해석력의 확보

    - 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.

    - 해석이 쉬워지면 명확한 결과도출에 많은 도움을 줄 수 있다.

     

    2) 차원 축소의 방법

     

    (1) 요인분석

     

    * 요인 분석의 목적

    - 변수 축소

    : 다수의 변수들의 정보손실을 억제하면서 소수의 요인으로 축약

    - 변수 제거

    - 변수특성 파악

    : 관련된 변수들이 묶임(군집)으로써 요인간의 상호 독립성 파악이 필요

    - 타당성 평가

    : 묶여지지 않는 변수의 독립성 여부를 판단

    - 파생변수

     

    * 요인 분석의 특징

    - 독립변수, 종속변수의 개념이 없다. 주로 기술통계에 의한 방법을 사용

    (2) 주성분 분석(PCA)

    * 개념

    - 하나 또는 복수 개의 특징을 찾는것을 의미

    - 서로 연관성이 있는 고차원공간의 데이터를 선형 연관성이 없는 저차원으로 변환하는 과정 거침

    - 기존의 기본변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보

     

    03. 파생변수의 생성

     

    1) 파생변수

    - 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미

    - 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여 하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다.

    - 특정상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다.

    - 고객관리 등에 유용하게 사용

     

    2) 요약 변수

    - 수집된 정보를 분석에 맞게 종합한 변수

    - 데이터 마트에서 가장 기본적인 변수

    - 많은 분석모델에서 공통으로 사용될 수 있어 재활용성이 높다

     

    04. 변수변환

    - 데이터를 분석하기 좋은 형태로 바꾸는 작업

     

    1) 변수 변환의 방법

    (1) 범주형 변환

    (2) 정규화

    - 데이터가 가진 스케일이 심하게 차이나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환

    (3) 로그변환

    - X ~ In(X)

    - 로그를 취하면 그 분포가 정규분포에 가깝게 분포하는 경우가 있다. 이런 분포를 로그정규분포를 가진다고함

    - 주식가격의 변동성 분석, 사람의 통증 정도 수치화

    - 데이터분포의 형태가 우측으로 치우친 경우 정규분포화를 위해 로그변환을 사용

    - In(X)는 자연로그

    (4) 역수 변환

    - X~1/X

    - 데이터의 분포형태가 극단적인 우측으로 치우친 경우 정규분포화를 위해 역수변환을 사용

    (5) 지수 변환

    - X ~ X n승

    (6) 제곱근 변환

    - X~루트X

    변수변환 전 분포 사용변수 변환식 변수변화 후 분포
    좌로 치우침 X^3 정규분포화
    좌측으로 약간 정도 치우침 X^2
    우측으로 약간 정도 치우침 √X
    우측으로 치우침 In(X)
    극단적으로 우측으로 치우침 1/X

     

    05. 불균형 데이터 처리

    - 데이터의 양의 차이가 큰 경우, 클래스 불균형이 있다

    - 데이터 클래스 비율이 너무 차이가 나면 정확도가 높아도 데이터 개수가 적은 클래스의 재현율이 급격히 작아지는 현상이 발생

    - 클래스에 속한 데이터의 개수의 차이에 의해 발생하는 문제들을 불균형 데이터 문제 또는 비대칭 데이터 문제 라고 함

     

    2) 불균형 데이터의 처리방법

    (1) 가중치 균형방법

    - 고정 비율 이용

    - 최적 비율 이용

    (2) 언더샘플링과 오버샘플링

    • 언더샘플링
      • 대표클래스의 일부만을 선택하고 소수클래스는 최대한 많은 데이터를 사용하는 방법
    • 오버샘플링
      • 소수클래스의 복사본을 만들어 대표클래스의 수만큼 데이터를 만들어 주는 것이다. 
    반응형

    댓글

Designed by Tistory.