program_language 및 궁금한것/빅데이터 분석 기사
-
[빅데이터분석기사/필기] 3. 빅데이터 모델링program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 30. 02:38
01. 분석 모형 설계 01. 분석 모형 선정 1) 분석 모형 선정 필요성 2) 분석 모형 선정 프로세스 (1) 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의) (2) 데이터 수집, 정리 및 도식화 (3) 데이터 전처리 (4) 분서 모형 선정 02. 분석 모형 정의 1) 분석 모형 정의와 종류 (1) 예측 분석 모형: 날씨, 주가.. 현재까지의 데이터와 상황에 따른 가설을 기반하여 미래 예측 (2) 현황 진단 모형: 과거 데이터로 현재를 객관적으로 진단 (3) 최적화 분석 모형: 제한된 자원, 환경내 최대의 효용성을 생성하기 위해 모델을 최적화 하는데 중점을 둠 2) 분석 모형 정의를 위한 사전 고려사항 - 필요성 - 파급효과 - 추진 시급성 - 구현 가능성 - 데이터..
-
[빅데이터분석기사/필기] 2-3-1,2. 기술통계/추론통계program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 29. 12:28
1. 기술통계 01. 데이터 요약 - 기초 통계량을 산출하여 결과를 도출 02. 표본 추출 - 모집단 - 표본 - 표본추출 1) 전수조사와 표본조사 (1) 전수조사: 모집단 전체 (2) 표본조사: 표본 추출 조사 2) 표본추출 오차 - 과잉 대표 : 중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상을 지칭 - 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상 - 표본 추출시 표본의 크기 보다는 대표성을 가지는 표본을 추출하는 것이 중요 3) 표본추출 기법 (1) 단순무작위 추출 - 사전지식이 많지 않은 경우 시행하는 방법 (2) 계통추출 - 설정간격 사이에서 무작위 추출 (3) 층화추출 - 층으로 나누어 추출 - 모집단 전체에 대한 특성치의 ..
-
[빅데이터분석기사/필기] 2-2-2. 고급 데이터 탐색program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 25. 17:57
01. 시공간 데이터 탐색 1) 시공간 데이터 개념 - 공간적정보(데이터)에 시간의 흐름(이력정보)이 결합 (1) 시간 데이터 - 유효시간: 객체가 발생하거나 소멸된 시간 - 거래시간: 관리 시스템을 통해 처리된 시간 - 사용자 정의 시간: 위에서 안되는 것을 사용자가 정의 - 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원 - 거래 시간 데이터, 유효시간 데이터: 각각 거래, 유효시간만 지원 - 이원 시간 데이터: 둘다 지원 (2) 공간 데이터 - 비공간 타입: 기본적인 데이터 유형을 가진 속성 - 래스터 공간 타입: 실세계에 존재하는 객체의 이미지 - 벡터 공간 타입: 점, 선, 면 등의 요소로 구성 - 기하학적 타입: 백터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 ..
-
[빅데이터분석기사/필기] 2-2-1. 분석변수 처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 10:00
01. 데이터 탐색의 개요 1) 탐색적 데이터 분석(EDA) 2) 탐색적 데이터 분석의 필요성 - 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해 - 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음 - 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정 - 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있다 3) 분석과정 및 절차 - 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인 - 데이터 결측치의 유무, 이상치의 유무 등을 확인 - 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인 - 관계속성 확인 절차 4) 이상치의 검출 (1) 개별 데이터 관찰 (2) 통계값 활용 - 데이..
-
[빅데이터분석기사/필기] 2-1-2. 분석변수 처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 22. 08:15
01. 변수 선택 1) 변수별 모형의 분류 전체 모형 축소 모형 영 모형 2) 변수의 선택 방법 전진 선택법 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절대값이 가장 큰 변수를 분석 모형에 포함 부분 F검성을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수 선택 없이 과정을 중단 한번 추가된 변수는 제거하지 않는 것이 원칙 후진 선택법 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순 상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단 한번 제거된 변수는 추가하지 않음 단계적 선택법 전진 선택..
-
[빅데이터분석기사/필기] 2-1-1. 데이터 전처리program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 21. 12:55
01. 데이터에 내재된 변수의 이해 1) 데이터 관련 정의 (1) 데이터(Data): 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득 (2) 단위(Unit): 관찰 되는 항목 또는 대상을 지칭 (3) 관측값(Observation): 각 조사 단위별 기록정보 또는 특성을 말한다. (4) 변수(Variable): 각 단위에서 측정된 특성 결과 (5) 원자료(Raw Data): 표본에서 조사된 최초의 자료를 이야기한다. 2) 데이터의 종류 (1) 단변량자료 - 자료의 특성을 대표하는 특성 변수가 하나인 자료 (2) 다변량 자료 - 자료의 특성을 대표하는 특성변수가 두가지 이상인 자료 (3) 질적자료 - 정성적 자료라고도 하며 자료를 범주의 형태로 분류 명목자료: 측정..
-
[빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 20. 19:52
01. 데이터 적재 1) 데이터 수집 및 적재 연계 (1) 데이터 수집 도구를 이용한 데이터 적재 (2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 (3) 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재 2) 데이터 적재 완료 테스트 * 정형데이터 - 테이블의 개수 - 속성의 개수 - 데이터 타입의 일치 여부 - 레코드 수 일치 여부 * 반정형/비정형 - 원천 데이터 테이블이 목적지 저장시스템에 맞게 생성 - 레코드 수 일치 02. 데이터 저장 1) 빅데이터 저장 시스템 - 데이터 제공 신뢰성과 가용성을 보장 (1) 파일 시스템 저장방식 (2) 데이터 베이스 저장방식 * NoSQL 데이터 베이스 분류 - key-value 데이터 베이스 (단순한 데이터 모델에 기반을 두기 때문에 관계..
-
[빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 20. 19:38
01. 데이터 수집 1) 데이터 수집 개요 - 여러 장소에 있는 데이터를 한곳으로 모으는 것 * 데이터 수집 시스템 구축 절차 수집 데이터 유형 파악 -> 수집 기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축 2) 비즈니스 도메인과 원천 데이터 정보 수집 (1) 비즈니스 도메인 정보 - 비즈니스 모델 - 비즈니스 용어집 - 비즈니스 프로세스 (2) 원천 데이터 정보 - 데이터의 수집 가능성 - 데이터의 보안 - 데이터의 정확성 - 수집 난이도 - 수집 비용 3) 내, 외부 데이터 수집 (1) 데이터의 종류 * 내부 데이터 - 서비스 시스템 - 네트워크 및 서버 장비 - 마케팅 데이터 * 외부 데이터 - 소셜 데이터 - 특정기관 데이터 - M2M 데이터 - LOD(Linked Open..