ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사/필기] 2-2-2. 고급 데이터 탐색
    program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 25. 17:57

    01. 시공간 데이터 탐색

     

    1) 시공간 데이터 개념

    - 공간적정보(데이터)에 시간의 흐름(이력정보)이 결합

     

    (1) 시간 데이터

    - 유효시간: 객체가 발생하거나 소멸된 시간

    - 거래시간: 관리 시스템을 통해 처리된 시간

    - 사용자 정의 시간: 위에서 안되는 것을 사용자가 정의

    - 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원

    - 거래 시간 데이터, 유효시간 데이터: 각각 거래, 유효시간만 지원

    - 이원 시간 데이터: 둘다 지원

    (2) 공간 데이터

    - 비공간 타입: 기본적인 데이터 유형을 가진 속성

    - 래스터 공간 타입: 실세계에 존재하는 객체의 이미지

    - 벡터 공간 타입: 점, 선, 면 등의 요소로 구성

    - 기하학적 타입: 백터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 기하학 계산값으로 표현

    - 위상적 타입: 방위, 공간 객체 간의 중첩, 포함, 교차, 분리 등과 같은 위치적 관계

    (3) 공간 데이터 모델

    - 관계형 모델

    - 객체지향 모델

    (4) 시공간 데이터

     

    2) 시공간 데이터 분석

    (1) 시공간 데이터에 대한 질의어

    - 시공간자료 정의언어

    : 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함

    : 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가

    - 시공간자료 조작언어

    : 객체의 삽입, 삭제, 변경 등의 검색문

    - 시간지원 연산자와 공간 연산자를 포함하여 이를 통해 객체에 대한 공간관리와 이력정보 제공

     

    (2) 시공간 데이터의 연산

    - 시공간위상 관계연산

    - 시공간기하 연산

     

    3) 적용 및 응용분야

    - 지리정보 시스템

    - 위치기반 서비스

    - 차량 위치추적 서비스

     

    02. 다변량 데이터 탐색

     

    1) 종속변수와 독립변수 사이의 인과관계

    (1) 다중회귀

    * 기본가정

    - 회귀모형은 모수에 대해 선형인 모형

    - 오차항의 평균은 0이다.

    - 오차항의 분산은 모든 관찰치에 대해 o^2의 일정한 분산을 갖는다

    - 서로다른 관찰치 간의 오차항은 상관이 없다

    (오차항은 서로 독립이며 공분산은 0)

    - 오차항의 각 독립변수 역시 독립인 관계

    - 오차항은 정규분포를 따르며 N(0, o^2)이다.

    (2) 로지스틱 회귀

    로지스틱 모형 함수(시그모이드 함수)

    위키피디아

    (3) 분산분석(ANOVA)

    - 표본 평균간의 분산과 표본 내의 관측치 간 분석을 비교

    * 일원분산분석

    - 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석

    - 단일용인변수(독립변수)에 의해 종속 변수에 대한 평균치의 차이를 검정하는데 이용한다.

    - 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야하고 요인변수가 정의되어야 한다.

     

    (4) 다변량 분산분석(Multi Variate ANOVA)

    - 측정형 변수, 종속변수가 2개 이상인 분산분석

    * 이원분산분석

    - 두개 이상의 인자에 근거하여 여러 수준으로 나누어지는 분석

    - 일원분산분석과는 달리 독립변인의 수가 둘이다

    - 성별변수와 연령변수에 따라 직무만족도가 어떻게 차이나는가를 알아보고자 한다면 이원분산분석을 해야한다.

     

    2) 변수축약

    (1) 주성분분석(PCA)

    (2) 요인분석

    - 독립변수와 종속변수의 개념이 없다.

    - 추론통계가 아닌 기술통계기법에 의해 수행할 수 있다.

    * 목적

    - 변수축소: 여러개의 관련변수가 하나의 요인으로 묶인다.

    - 변수제거: 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있다.

    - 변수특성파악: 관련된 변수들의 묶음으로 상호독립특성을 파악하기 용이해진다.

    - 측정항목의 타당성 평가: 그룹이 되지 않은 변수의 특성을 구분할 수 있게 된다.

    - 요인점수를 통한 변수생성: 회귀분석, 군집분석, 판별분석 등에 적용 가능한 변수를 생성할 수 있다.

     

    (3) 정준상관분석

    - 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법

    - 정준변수는 새로 만들어진 선형결합

    - 정준상관계수는 정준변수들 사이의 상관계수

    - 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질수 있음

    - 회귀분석의 경우 하나의 반응변수를 여러개의 설명변수로 설명하고자 할때 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에는 이와 같은 인과성이 없다.

     

    3) 개체유도

    (1) 군집분석

    - 계층적 

    - 비계층적 방법 또는 최적분화 방법

    - 조밀도

    - 그래프

    (2) 다차원 척도법

    (3) 판별 분석

    - 로지스틱 판별분석

     

    03. 비정형 데이터 탐색

     

    1) 비정형 데이터

    - 미리 정의된 데이터 모데링 없거나 미리 정의된 바익으로 정리되지 않은 정보

    2) 비정형 데이터의 분석

    (1) 데이터 마이닝

    - 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정

    - 탐색적 자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의 방법론

    - OLAP, 인공지능쪽 SOM, 신경망, 전문가 시스템등의 기술적인 방법론이 쓰임

    - 자료에 의존하여 현상을 해석 개선하려고 하기때문에 자료가 현실을 충분히 반영 못한상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할수 있다.

    (2) 텍스트 마이닝

    (3) 오피니언 마이닝

    (4) 웹 마이닝

    - 웹구조 마이닝

    - 웹내용 마이닝

    - 웹사용 마이닝

    반응형

    댓글

Designed by Tistory.