빅데이터분석기사 필기
-
[빅데이터분석기사/필기] 2-3-1,2. 기술통계/추론통계program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 29. 12:28
1. 기술통계 01. 데이터 요약 - 기초 통계량을 산출하여 결과를 도출 02. 표본 추출 - 모집단 - 표본 - 표본추출 1) 전수조사와 표본조사 (1) 전수조사: 모집단 전체 (2) 표본조사: 표본 추출 조사 2) 표본추출 오차 - 과잉 대표 : 중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상을 지칭 - 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상 - 표본 추출시 표본의 크기 보다는 대표성을 가지는 표본을 추출하는 것이 중요 3) 표본추출 기법 (1) 단순무작위 추출 - 사전지식이 많지 않은 경우 시행하는 방법 (2) 계통추출 - 설정간격 사이에서 무작위 추출 (3) 층화추출 - 층으로 나누어 추출 - 모집단 전체에 대한 특성치의 ..
-
[빅데이터분석기사/필기] 2-2-2. 고급 데이터 탐색program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 25. 17:57
01. 시공간 데이터 탐색 1) 시공간 데이터 개념 - 공간적정보(데이터)에 시간의 흐름(이력정보)이 결합 (1) 시간 데이터 - 유효시간: 객체가 발생하거나 소멸된 시간 - 거래시간: 관리 시스템을 통해 처리된 시간 - 사용자 정의 시간: 위에서 안되는 것을 사용자가 정의 - 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원 - 거래 시간 데이터, 유효시간 데이터: 각각 거래, 유효시간만 지원 - 이원 시간 데이터: 둘다 지원 (2) 공간 데이터 - 비공간 타입: 기본적인 데이터 유형을 가진 속성 - 래스터 공간 타입: 실세계에 존재하는 객체의 이미지 - 벡터 공간 타입: 점, 선, 면 등의 요소로 구성 - 기하학적 타입: 백터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 ..
-
[빅데이터분석기사/필기] 2-2-1. 분석변수 처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 10:00
01. 데이터 탐색의 개요 1) 탐색적 데이터 분석(EDA) 2) 탐색적 데이터 분석의 필요성 - 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해 - 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음 - 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정 - 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다 3) 분석과정 및 절차 - 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인 - 데이터 결측치의 유무, 이상치의 유무 등을 확인 - 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인 - 관계속성 확인 절차 4) 이상치의 검출 (1) 개별 데이터 관찰 (2) 통계값 활용 - 데이..
-
[빅데이터분석기사/필기] 2-1-2. 분석변수 처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 08:15
01. 변수 선택 1) 변수별 모형의 분류 전체 모형 축소 모형 영 모형 2) 변수의 선택 방법 전진 선택법 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절대값이 가장 큰 변수를 분석 모형에 포함 부분 F검성을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수 선택 없이 과정을 중단 한번 추가된 변수는 제거하지 않는 것이 원칙 후진 선택법 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순 상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단 한번 제거된 변수는 추가하지 않음 단계적 선택법 전진 선택..
-
[빅데이터분석기사/필기] 2-1-1. 데이터 전처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 21. 12:55
01. 데이터에 내재된 변수의 이해 1) 데이터 관련 정의 (1) 데이터(Data): 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득 (2) 단위(Unit): 관찰 되는 항목 또는 대상을 지칭 (3) 관측값(Observation): 각 조사 단위별 기록정보 또는 특성을 말한다. (4) 변수(Variable): 각 단위에서 측정된 특성 결과 (5) 원자료(Raw Data): 표본에서 조사된 최초의 자료를 이야기한다. 2) 데이터의 종류 (1) 단변량자료 - 자료의 특성을 대표하는 특성 변수가 하나인 자료 (2) 다변량 자료 - 자료의 특성을 대표하는 특성변수가 두가지 이상인 자료 (3) 질적자료 - 정성적 자료라고도 하며 자료를 범주의 형태로 분류 명목자료: 측정..
-
[빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 20. 19:52
01. 데이터 적재 1) 데이터 수집 및 적재 연계 (1) 데이터 수집 도구를 이용한 데이터 적재 (2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 (3) 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재 2) 데이터 적재 완료 테스트 * 정형데이터 - 테이블의 개수 - 속성의 개수 - 데이터 타입의 일치 여부 - 레코드 수 일치 여부 * 반정형/비정형 - 원천 데이터 테이블이 목적지 저장시스템에 맞게 생성 - 레코드 수 일치 02. 데이터 저장 1) 빅데이터 저장 시스템 - 데이터 제공 신뢰성과 가용성을 보장 (1) 파일 시스템 저장방식 (2) 데이터 베이스 저장방식 * NoSQL 데이터 베이스 분류 - key-value 데이터 베이스 (단순한 데이터 모델에 기반을 두기 때문에 관계..
-
[빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 20. 19:38
01. 데이터 수집 1) 데이터 수집 개요 - 여러 장소에 있는 데이터를 한곳으로 모으는 것 * 데이터 수집 시스템 구축 절차 수집 데이터 유형 파악 -> 수집 기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축 2) 비즈니스 도메인과 원천 데이터 정보 수집 (1) 비즈니스 도메인 정보 - 비즈니스 모델 - 비즈니스 용어집 - 비즈니스 프로세스 (2) 원천 데이터 정보 - 데이터의 수집 가능성 - 데이터의 보안 - 데이터의 정확성 - 수집 난이도 - 수집 비용 3) 내, 외부 데이터 수집 (1) 데이터의 종류 * 내부 데이터 - 서비스 시스템 - 네트워크 및 서버 장비 - 마케팅 데이터 * 외부 데이터 - 소셜 데이터 - 특정기관 데이터 - M2M 데이터 - LOD(Linked Open..
-
[빅데이터분석기사/필기] 1-2-2. 분석 작업 계획program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 18. 01:37
01. 분석 작업 개요 1) 데이터 처리 영역 - 데이터 분석을 위한 기초 데이터를 정의 하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역 - 데이터 소스, 수집, 저장, 처리 2) 데이터 분석 영역 - 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역 (1) 데이터 분석 - NCS(국가직무능력표준) - 도메인 이슈 도출 - 분석목표 수립 - 프로젝트 계획 수립 - 보유 데이터 자산 확인 02. 데이터 확보 계획 1) 데이터 확보를 위한 사전 검토사항 (1) 필요 데이터의 정의 (2) 보유 데이터의 현황파악 (3) 분석 데이터의 유형 (4) 편향되지 않고 충분한 양의 데이터 규모 - 훈련 데이터셋(Training..