-
[빅데이터분석기사/필기] 1-1-2. 빅데이터 기술 및 제도program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 15. 22:57
01. 빅데이터 플랫폼
- 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합 제공
1) 빅데이터 플랫폼의 등장배경
(1) 비즈니스 요구사항 변화
(2) 데이터 규모와 처리 복잡도 증가
(3) 데이터 구조의 변화와 신속성 요구
(4) 데이터 분석 유연성 증대
2) 빅데이터 플랫폼의 기능
(1) 컴퓨팅 부하 발생
(2) 저장 부하 발생
(3) 네트워크 부하 발생
3) 빅데이터 플랫폼의 조건
4) 빅데이터 플랫폼의 구조
02. 빅데이터 처리 기술
1) 빅데이터 처리 과정과 요소기술
(1) 데이터 생성
(2) 수집
- 크롤링, ETL, Open API, 로그 수집기
(3) 저장(공유)
- 병렬DBMS, 하둡, NoSQL
(4) 처리
- 하둡, 맵리듀스, In-memory 방식으로 실시간 처리
(5) 분석
- 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법
(6) 시각화
- 표, 그래프 등을 이용해 쉽게 표현
2) 빅데이터 수집
(1) 크롤링
(2) 로그 수집기
(3) 센서 네트워크
- 유비쿼터스 컴퓨팅 구현을 ㅣ위한 추경량 저전력의 많은 센서들로 구성된 유무선 네트워크
(4) RSS Reader / Open API
- 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술
(5) ETL 프로세스
- 데이터의 추출(Extract), 변환(Transform), 적재(Load)의 약어로, 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 데이터 웨어하우스에 적재하는 과정이다.
3) 빅데이터 저장
(1) NoSQL(Not-only SQL)
- Cloudata, Hbase, Cassandra, MongoDB
(2) 공유 데이터 시스템(Shared-data System)
- 일관성, 가용성, 네트워크 분할 감내성 중 최대 두개 속성만 보유(CAP 이론)
(3) 병렬 데이터 베이스 관리 시스템 (DBMS)
- VoltDB, SAP HANA, Vertica, Greenplum, Netezza
(4) 분산 파일 시스템
- GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3파일 시스템
(5) 네트워크 저장 시스템
- SAN(Storage Area Network), NAS(Network Attached Storage)
4) 빅데이터 처리
(1) 분산 시스템과 병렬 시스템
분산시스템 - 네트워크상 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
- 분산 시스템에 속한 각 노드는 독립된 시스템
- 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행병렬시스템 - 문제 해결을 위해 CPU등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는기술 - 용어는 구분되어 사용되기도 하지만 서로 중첩되는 부분이 많아 실제 시스템에서도 이 둘을 명확히 구분하기는 어렵다.
- 두 개념을 아우르는 분산 병렬 커퓨팅이라는 용어를 사용한다.(2) 분산 병렬 컴퓨팅: 다수의 독립된 컴퓨팅 자원을 네트워크 상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술
(3) 하둡(Hadoop)
- 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 프레임워크
- HDFS, Hbase, MapReduce로 구성
(4) 아파치 스파크(Apache Spark)
- 실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠르다.
- 스칼라, Java, R, Python 지원
(5) 맵리듀스(MapReduce)
- 효과적인 병렬 및 분산처리 지원
* 맵리듀스 처리단계
1단계 입력 데이터를 읽고 분할한다. 2단계 분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할한다. 3단계 통합 및 재분할된 중간 데이터를 셔플(Shuffle) 한다. 4단계 셔플된 중간 데이터를 이용해 리듀스 작업을 수행한다. 5단계 출력 데이터를 생성하고, 맵리듀스 처리를 종료한다. 5) 빅데이터 분석
(1) 데이터 분석 방법의 분류
* 탐구요인분석(EFA: Exploratory Factor Analysis)
- 데이터간 상호 관계를 파악하여 데이터를 분석하는 방법
* 확인요인분석(CFA: Confirmatory Factor Analysis)
- 관찰된 변수들의 집합 요소 구조를 파악하기 위한 통계적 기법을 통해 데이터를 분석하는 방법
(2) 데이터 분석 방법
- 분류
- 군집화
- 기계학습
- 텍스트 마이닝
- 웹 마이닝
- 오피니언 마이닝
- 리얼리티 마이닝
- 소셜 네트워크 분석
- 감성 분석
03.빅데이터와 인공지능
1) 인공지능(AI: Artificial Intelligence)
(1) 인공지능의 정의
- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직
(2) 인공지능과 기계학습 및 딥러닝의 관계
- 인공지능은 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력
- 기계학습은 인공지능의 연구 분야 중 하나로 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법
- 딥러닝은 기계학습 방법 중 하나로 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법
(3) 딥러닝 특징
- 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있다.
(4) 기계학습의 종류
- 지도학습
- 비지도학습
- 준지도학습
- 강화학습
(5) 기계학습 방법에 따른 인공지능 응용분야
학습 종류 방법 응용 영역 지도학습 분류모형 - 이미지 인식
- 음성 인식
- 신용평가 및 사기 검출
- 불량예측 및 원인 발굴회귀모형 - 시세/가격/주가 예측
- 강우량 예측 등비지도 학습 군집분석 - 텍스트 토픽 분석
- 고객 세그멘테이션오토인코더 - 이상징후 탐지
- 노이즈 제거
- 텍스트 벡터화생성적 적대 신경망 - 시뮬레이션 데이터 생성
- 누락 데이터 생성
- 패션 데이터 생성강화학습 강화학습 - 게임 플레이어 생성
- 로봇 학습 알고리즘
- 공급망 최적화 등2) 인공지능 데이터 학습의 진화
(1) 전이학습
(2) 전이학습 기반 사전학습모형
(3) BERT(Bidirectional Encoder Representations from Transformers)
- 구글에서 발표한 언어인식 사전학습모형
3) 빅데이터와 인공지능의 관계
(1) 인공지능을 위한 학습 데이터 확보
(2) 학습 데이터의 애노테이션 작업
(3) 애노테이션 작업을 위한 도구로써의 인공지능
4) 인공지능의 기술동향
(1) 기계학습 프레임워크 보급 확대
(2) 생성적 적대 네트워크(GAN: Generative Adversarial Networks)
- 두개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
(3) 오토인코더
(4) 설명 가능한 인공지능(XAI: eXplainable AI)
- 차트나 수치 또는 자연어 형태의 설명으로 제공
(5) 기계학습 자동화(AutoML)
04. 개인정보 개요
1) 개인정보의 정의와 판단기준
(1) 개인정보의 정의
- 살아있는 개인에 관한 정보
- 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함
(2) 개인정보의 판단기준
- 생존하는 개인에 관한 정보
- 정보의 내용, 형태 등은 제한이 없다.
- 개인을 알아볼 수 있는 정보 ( 다른정보와 쉽게 결합하여 개인을 알아볼수 있는 정보도 포함)
- 성명, 전화번호, 주소, 주민번호, 운전면허번호, 학번, 회사 사번 등
2) 개인정보의 처리와 활용
(1) 개인정보 이전
(2) 개인정보의 처리 위탁
(3) 개인정보의 제3자 제공
3) 개인정보의 보호
빅데이터 개인정보보호 가이드 라인
- 비식별화
- 투명성 확보
- 재식별 시 조치
- 민감정보 및 비밀정보 처리
- 기술적, 관리적 보호조치
05. 개인정보 법, 제도
1) 개인정보보호법
(1) 개요
- 당사자의 동의 없는 개인정보 수집 및 활용하거나 제 3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화
2) 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
(1) 개요
- 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관해 규정
3) 신용정보의 이용 및 보호에 관한 법률
* 개인정보의 범위
- "신용정보"란 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한 정보로서 다음 각 목의 정보를 말한다.
가. 특정 신용정보주체를 식별할 수 있는 정보
나. 신용정보주체의 거래내용을 판단할 수 있는 정보
다. 신용정보주체의 신용도를 판단할 수 있는 정보
라. 신용정보주체의 신용거래능력을 판단할 수 있는 정보
마. 그 밖에 가목부터 라목까지와 유사한 정보
* 2020년 데이터 3법의 주요 개정 내용
- 데이터 이용 활성화를 위한 '가명정보' 갠ㅁ 도입 및 데이터간 결합 근거 마련
- 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화
- 데이터 활용에 따른 개인정보처리자 책임 강화
- 다소 모호했던 개인정보의 판단기준 명확화
06. 개인정보 비식별화
1) 개인정보 비식별화의 개요
* 비식별 조치란?
- 개인을 알아볼 수 없도록 하는 조치
2) 개인정보 비식별화 조치 가이드라인
(1) 단계
사전검토 -> 비식별 조치 -> 적정성 평가 -> 사후 관리
(2) 조치방법
- 사전검토
- 총계 처리
- 데이터 삭제
- 데이터 범주화
- 데이터 마스킹
- 가명처리
07. 개인정보 활용
1) 데이터 수집의 위기 요인과 통제 방안
(1) 사생활 침해로 위기 발생
-> 동의에서 책임으로 강화하여 통제
(2) 책임원칙 훼손으로 위기 발생
-> 결과 기반 책임 원칙 고수하여 통제
(3) 데이터 오용으로 위기 발생 ( 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터를 의존)
-> 알고리즘 접근을 허용하여 통제
* 익명화
- 사생활 침해를 방지하기 위해 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법
반응형'program_language 및 궁금한것 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장 (0) 2021.09.20 [빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환 (0) 2021.09.20 [빅데이터분석기사/필기] 1-2-2. 분석 작업 계획 (0) 2021.09.18 [빅데이터분석기사/필기] 1-2-1. 분석 방안 수립 (0) 2021.09.17 [빅데이터분석기사/필기] 1-1-1. 빅데이터 개요 및 활용 (0) 2021.09.13