ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 3. 빅데이터 모델링
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 30. 02:38

    01. 분석 모형 설계

     

    01. 분석 모형 선정

    1) 분석 모형 선정 필요성

    2) 분석 모형 선정 프로세스

    (1) 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의)

    (2) 데이터 수집, 정리 및 도식화

    (3) 데이터 전처리

    (4) 분서 모형 선정

     

    02. 분석 모형 정의

    1) 분석 모형 정의와 종류

    (1) 예측 분석 모형: 날씨, 주가.. 현재까지의 데이터와 상황에 따른 가설을 기반하여 미래 예측

    (2) 현황 진단 모형: 과거 데이터로 현재를 객관적으로 진단

    (3) 최적화 분석 모형: 제한된 자원, 환경내 최대의 효용성을 생성하기 위해 모델을 최적화 하는데 중점을 둠

     

    2) 분석 모형 정의를 위한 사전 고려사항

    - 필요성

    - 파급효과

    - 추진 시급성

    - 구현 가능성

    - 데이터 수집 가능성

    - 모델 확장성

    (1) 상향식 접근: 특정 영역을 지정, 의사결정 지점으로 진행하는 과정에서 분석기회를 발굴

    (2) 분석 유스케이스 기반 접근: 분석 테마 후보 그룹을 활용, 연관된 분석 기회를 발굴

     

    03. 분석 모형 구축 절차

     

    1) 분석 시나리오 작성

    2) 분석 모형 설계

    (1) 분석 모형 설계시 사전 확인 사항

    - 필요한 데이터 항목이 정해졌는가?

    - 데이터 단위를 고려, 항목에 따른 표준화 방법을 정하였는가?

    - 데이터를 수집한 항목에 따라, 단계별로 모델이 설계되었는가?

    - 분석 검증 통계 기법을 선정하였는가?

    (2)분석 모델링 설계와 검정

    - 분석목적에 기반한 가설검정

    - 추정방법에 대한 기술 검토

    - 분석 모델링 설계

    (3) 분석 모델링에 적합한 알고리즘 설계

    (4) 모듈 개발 및 테스트

    - 모듈 기능 정의

    - 모듈 설계

    - 모듈 개발 결과물과 모델 설계와 일치 확인

    - 정상 동작 여부 검증

     

    3) 분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법

    (1) 유의수준 결정, 귀무가설과 대립가설 설정

    (2) 검정통계량의 설정

    (3) 기각역의 설정

    (4) 검정 통계량 계산 (표본평균 - 모평균) / (표본 표준편차)

    - 신뢰수준, 유의수준

    (5) 통계적인 의사결정(가설검정)

    - 양측검정, 단측검정

     

    4) 분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토

     

    02. 분석 환경 구축

     

    01. 분석 도구 선정

     

    1) R

    (1) 객체지향 언어

    (2) 고속메모리 처리

    (3) 다양한 자료 구조

    (4) 최신패키지 제공

    (5) 시각화

     

    2) 파이썬

    (1) 배우기 쉬운 대화 기능의 인터프리터 언어

    (2) 동적이 데이터타입 결정 지원

    (3) 플랫폼 독립적 언어

    (4) 내장 객체 잘형과 자동 메모리 관리

     

    02. 데이터 분할

    1) 데이터 분할 정의

    - 학습 데이터

    - 평가 데이터 

    - 검증용 테스트 데이터

    2) 과대적합과 과소 적합

    (1) 과대적합(과적합)

    - 학습(훈련)데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘 하지 못함

    - K-fold 교차검증, 정규화, 데이터 분할

    (2) 과소적합

    (3) 일반화

     

    2. 분석기법 적용

    01. 분석기법

    01. 분석기법 개요

    지도학습-분류 의사결정트리, 랜덤포레스트, 인공신경망, 서포터 벡터 머신(SVM), 로지스티 회귀분석
    지도학습-회귀(예측) 선형회귀분석, 다중회귀분석, 의사결정트리
    비지도학습 군짖ㅂ분석, 연관분석, 인공신경망, 오토인코더
    준지도학습 셀프 트레이닝, GAN
    강화학습 A-Leaning, 정책경사(PG)

    2) 데이터 분석 알고리즘 분야

    업리프트 모델링 단계적 추정, 예측 분석
    생존분석 의료 통계, 설비 분야 사건 예측
    회귀분석 예측, 추정 분석
    시각화 원인과 관계 분석
    기초통계 기초 통계현황 파악
    부스팅, 배깅 분류 분석
    시계열분석 시간상의 예측(이자율)
    요인분석 차원축소
    텍스트마이닝 감성 분석
    의사결정 나무, 랜덤포레스트 분류
    신경 회로망 예측 분석
    군집분석 독립변수들만의 분류, 그룹화
    추천-협업 필터링 아이템과 이용자 간의 상호 분석 통한 추천
    앙상블 기법 추정, 예측, 규범 등의 결합 분석
    소셜네트워크 분석 관계망 분석
    서포트 벡터 머신 분류 분석
    주성분분석 원인분석, 자원 축소

     

    02. 회귀분석

    - 원인과 결과의 연관을 분석

    - 독립변수: 입력값 또는 원인을 설명하는 변수

    - 종속변수: 결과값 또는 효과를 설명하는 변수

    - 회귀선: 독립변수가 주어질때의 종속변수의 기댓값

    - 최소자승법: 잔차 제곱의 합이 최소가 되게 하는 직선을 찾는 방법

    - 선형성, 잔차 정규성, 잔차 독립성, 잔차 등분산성, 다중 공산성

     

    1) 선형 회귀분석

    (1) 단순선형 회귀분석

    (2) 다중선형 회귀분석

     

    2) 로지스틱 회귀분석

    - 선형 회귀분석과의 차이점은 종속 변수를 범주형으로 확장하였고 정규분포 대신 이항분포를 따른다는 점

    (1) 단순 로지스틱 회귀분석

    - 종속변수가 이항형 문제(범주의 개수가 두개)

    (2) 다중 로지스틱 회귀분석

    - 종속변수가 두개이상의 범주

     

    03. 의사결정나무

    1) 의사결정나무의 구성

    (1) 뿌리마디

    (2) 중간마디

    (3) 끝마디

    (4) 자식마디

    (5) 부모마디

    (6) 가지 - 하나의 마디로부터 끝 마디까지 연결된 마디들

    (7) 깊이 - 가지를 이루는 마디의 개수

     

    2) 의사 결정나무의 형성

    - 분리기준

    - 정지규칙

    (1) 분류나무

    - 이산형(범주형) 목표번수에 따른 빈도기반 분리에 사용

    • 카이제곱 통계량의 p-value
    • 지니 지수
    • 엔트로피 지수

    (2) 회귀나무

    - 연속형 목표변수에 따른 평균/표준편차 기반 분리에 사용

    • 분산분석 F-통계량의 p값
    • 분산의 감소량

     

    3) 의사결정나무의 분석 과정

    (1) 변수 선택

    (2) 의사결정나무 형성

    * 정보 획득

    - 정봉론에서 순도가 증가하고 불확실성이 감소하는 것

    * 재귀적 분기 학습

    (3) 가지치기: 마디 제거

    - 에러 감소 가지치기: 오류가 더이상 줄어들지 않을 떄까지

    - 룰 포스트 가지치기: 정확도가 낮은 순서대로 제거

    (4) 타당성 평가

    (5) 해석 및 예측

     

    4) 의사결정나무의 대표적 알고리즘

    (1) CART

    (2) C4.5 / C5.0

    (3) CHAID

    (4) 랜덤 포레스트

    - 부트스트래핑

    : 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러개의 표본자료 생성

    : 전체 관측값들 중 일부를 뽑아 통계값을 측정하는 과정을 여러번 반복

    - 배깅: 부트스트랩 자료를 생성하여 학습하는 모델링

    * 부스팅

    - 가중치를 활용하여 약분류기를 강분류기로 만드는 방법

    * 앙상블 학습

    - 여러모델을 학습시켜 결합하는 방식, 일반화 성능을 향상시켜 과적합 해결

     

    04. 인공신경망(ANN)

    1) 인공신경망의 특징

    2) 인공신경망의 발전

    (1) 다증 퍼셉트론이 가진 문제

    - 사라지는 경사도

    - 오버피팅

    (2) 딥러닝의 등장

     

    3) 인공신경망의 원리

    - 지도학습, 비지도학습, 강화학습

    (1)인공신경망의 주요 요소

    - 노드

    - 가중치

    - 활성함수

    - 입력층

    - 은닉층

    - 출력층

    (2) 뉴런간의 연결방법

    - 층간 연결

    - 층내 연결

    - 순환 연결

     

    4) 학습

    (1) 손실 함수

    (2) 평균제곱 오차

    (3) 교차 엔트로피 오차

    (4) 학습 알고리즘

    - 1단계: 미니배치

    - 2단계: 기울기 산출

    - 3단계: 매개변수 갱신

    (5) 오차역전파

    (6) 활성(활성화) 함수

    - 시그모이드

    - 렐루

    (7) 과적합

    - 해결방안

    : 특징개수 줄이기 또는 정규화

    : L2규제로 가중치 클수록 패널티 부과

    : 드롭아웃

    : 하이퍼파라미터 최적화

     

    5) 딥러닝 모델 종류

    (1) CNN

    - 합성곱 계층

    - 풀링 계층

    (2) RNN(필기인식, 음성인식) - 순서를 가진 데이터

    (3) LSTM

    - 입력게이트

    - 출력 게이트

    - 망각 게이트

    (4) 오토인코더

    - 디노이징 오토인코더

    - 희소 오토인코더

    - VAE

    - 분야: 데이터 압축, 저차원화를 통한 데이터 관찰, 배경 잡음 억제

    (5) GAN

    - 판별자 네트워크

    - 생성자 네트워크

     

    05. 서포트 벡터 머신(SVM)

    1) SVM의 주요 요소

    (1) 벡터

    (2) 결정영역

    (3) 초평면

    (4) 서포트벡터

    (5) 마진

     

    2) SVM의 핵심적 특징

    - 여백(마진) 최대화

    - 초평면의 마진은 각 서포트 벡터를 지나는 초평면 사이의 거리를 의미

     

    06. 연관성 분석

    1) 연관규칙 순서

    (1) 데이터간 규칙 생성

    (2) 어떤 규칙이 데이터 특성에 부합되는지 기준 설정

    - 지지도, 신뢰도, 향상도

    (3) 규칙의 효용성 평가

    (4) 실제 규칙 생성

     

    2) Apriori 알고리즘

     

    07. 군집분석

    1) 군집 분류시 기본가정

    - 하나의 군집 내에 속한 개체들의 특성은 동일

    - 군집의 개수 또는 구조와 관계없이 개체간의 거리를 기준으로 분류

    - 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타낸다.

     

    2) 군집분석의 척도

    (1) 유클리드 거리

    (2) 맨하탄 거리

    (3) 민코우스키 거리

    (4) 마할라노비스 거리

    (5) 자카드 거리

     

    3) 군집분석의 종류

    - 병합방식

    - 분할방식

    (1) 계층적 군집분석

    - 계층적 병합 군집화

    - 최단 연결볍

    - 최장 연결법

    - 평균 연결법

    - Ward 연결법

    (2) 비계층적 군집분석(분할적 군진)

    - K-평균 군집 분석

    - 밀도 기반 클러스터링(DBSCAN)

    - 확률분포 기반 클러스터링

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    반응형

    댓글

Designed by Tistory.