-
[빅데이터분석기사/필기] 2-2-2. 고급 데이터 탐색program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 25. 17:57
01. 시공간 데이터 탐색
1) 시공간 데이터 개념
- 공간적정보(데이터)에 시간의 흐름(이력정보)이 결합
(1) 시간 데이터
- 유효시간: 객체가 발생하거나 소멸된 시간
- 거래시간: 관리 시스템을 통해 처리된 시간
- 사용자 정의 시간: 위에서 안되는 것을 사용자가 정의
- 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원
- 거래 시간 데이터, 유효시간 데이터: 각각 거래, 유효시간만 지원
- 이원 시간 데이터: 둘다 지원
(2) 공간 데이터
- 비공간 타입: 기본적인 데이터 유형을 가진 속성
- 래스터 공간 타입: 실세계에 존재하는 객체의 이미지
- 벡터 공간 타입: 점, 선, 면 등의 요소로 구성
- 기하학적 타입: 백터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 기하학 계산값으로 표현
- 위상적 타입: 방위, 공간 객체 간의 중첩, 포함, 교차, 분리 등과 같은 위치적 관계
(3) 공간 데이터 모델
- 관계형 모델
- 객체지향 모델
(4) 시공간 데이터
2) 시공간 데이터 분석
(1) 시공간 데이터에 대한 질의어
- 시공간자료 정의언어
: 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함
: 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가
- 시공간자료 조작언어
: 객체의 삽입, 삭제, 변경 등의 검색문
- 시간지원 연산자와 공간 연산자를 포함하여 이를 통해 객체에 대한 공간관리와 이력정보 제공
(2) 시공간 데이터의 연산
- 시공간위상 관계연산
- 시공간기하 연산
3) 적용 및 응용분야
- 지리정보 시스템
- 위치기반 서비스
- 차량 위치추적 서비스
02. 다변량 데이터 탐색
1) 종속변수와 독립변수 사이의 인과관계
(1) 다중회귀
* 기본가정
- 회귀모형은 모수에 대해 선형인 모형
- 오차항의 평균은 0이다.
- 오차항의 분산은 모든 관찰치에 대해 o^2의 일정한 분산을 갖는다
- 서로다른 관찰치 간의 오차항은 상관이 없다
(오차항은 서로 독립이며 공분산은 0)
- 오차항의 각 독립변수 역시 독립인 관계
- 오차항은 정규분포를 따르며 N(0, o^2)이다.
(2) 로지스틱 회귀
로지스틱 모형 함수(시그모이드 함수)
(3) 분산분석(ANOVA)
- 표본 평균간의 분산과 표본 내의 관측치 간 분석을 비교
* 일원분산분석
- 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석
- 단일용인변수(독립변수)에 의해 종속 변수에 대한 평균치의 차이를 검정하는데 이용한다.
- 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야하고 요인변수가 정의되어야 한다.
(4) 다변량 분산분석(Multi Variate ANOVA)
- 측정형 변수, 종속변수가 2개 이상인 분산분석
* 이원분산분석
- 두개 이상의 인자에 근거하여 여러 수준으로 나누어지는 분석
- 일원분산분석과는 달리 독립변인의 수가 둘이다
- 성별변수와 연령변수에 따라 직무만족도가 어떻게 차이나는가를 알아보고자 한다면 이원분산분석을 해야한다.
2) 변수축약
(1) 주성분분석(PCA)
(2) 요인분석
- 독립변수와 종속변수의 개념이 없다.
- 추론통계가 아닌 기술통계기법에 의해 수행할 수 있다.
* 목적
- 변수축소: 여러개의 관련변수가 하나의 요인으로 묶인다.
- 변수제거: 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있다.
- 변수특성파악: 관련된 변수들의 묶음으로 상호독립특성을 파악하기 용이해진다.
- 측정항목의 타당성 평가: 그룹이 되지 않은 변수의 특성을 구분할 수 있게 된다.
- 요인점수를 통한 변수생성: 회귀분석, 군집분석, 판별분석 등에 적용 가능한 변수를 생성할 수 있다.
(3) 정준상관분석
- 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법
- 정준변수는 새로 만들어진 선형결합
- 정준상관계수는 정준변수들 사이의 상관계수
- 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질수 있음
- 회귀분석의 경우 하나의 반응변수를 여러개의 설명변수로 설명하고자 할때 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에는 이와 같은 인과성이 없다.
3) 개체유도
(1) 군집분석
- 계층적
- 비계층적 방법 또는 최적분화 방법
- 조밀도
- 그래프
(2) 다차원 척도법
(3) 판별 분석
- 로지스틱 판별분석
03. 비정형 데이터 탐색
1) 비정형 데이터
- 미리 정의된 데이터 모데링 없거나 미리 정의된 바익으로 정리되지 않은 정보
2) 비정형 데이터의 분석
(1) 데이터 마이닝
- 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
- 탐색적 자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의 방법론
- OLAP, 인공지능쪽 SOM, 신경망, 전문가 시스템등의 기술적인 방법론이 쓰임
- 자료에 의존하여 현상을 해석 개선하려고 하기때문에 자료가 현실을 충분히 반영 못한상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할수 있다.
(2) 텍스트 마이닝
(3) 오피니언 마이닝
(4) 웹 마이닝
- 웹구조 마이닝
- 웹내용 마이닝
- 웹사용 마이닝
반응형'program_language 및 궁금한것 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터분석기사/필기] 3. 빅데이터 모델링 (0) 2021.09.30 [빅데이터분석기사/필기] 2-3-1,2. 기술통계/추론통계 (0) 2021.09.29 [빅데이터분석기사/필기] 2-2-1. 분석변수 처리 (0) 2021.09.22 [빅데이터분석기사/필기] 2-1-2. 분석변수 처리 (0) 2021.09.22 [빅데이터분석기사/필기] 2-1-1. 데이터 전처리 (0) 2021.09.21