-
[빅데이터분석기사/필기] 1-2-1. 분석 방안 수립program_language 및 궁금한것/빅데이터 분석 기사 2021. 9. 17. 00:07
01. 데이터 분석
- 인사이트를 발굴하고 이를 공유하여 의사결정을 지원하는 것을 목표로 데이터를 정의, 수집, 변환, 모델링, 시각화 하는 과정이다.
1) 데이터 분석의 지향점
(1) 전략적 통찰이 없는 데이터 분석 배제
(2) 일차원적인 데이터 분석 지양
(3) 전략 도출을 위한 가치 기반 데이터 분석 지향
2) 데이터 분석 시 고려사항
- 데이터는 규모가 아니라 어떤 시각과 통찰을 얻을 수 있느냐의 문제이다.
02. 데이터 분석 기획
- 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 것인가에 대한 일련의 계획 수립
1) 분석 기획의 특징
(1) 분석 대상과 방법에 따른 분류
분석의 대상(What) 분석의 방식(how) Optimization Insight Solution Discovery (2) 목표 시점에 따른 분류
- 단기적 접근방식(과제 중심적 접근)
- 중장기적 저븐 방식(마스터 플랜 접근)
- 혼합 방식 ( 분석 기획 시 적합)
2) 분석 기획 시 필요 역량
(1) 분석기획을 위한 기본적인 소양
(2) 프로젝트 관리 역량과 리더쉽
3) 분석 기획시 고려사항
(1) 사용가능한 데이터 확인
(2) 적합한 사례 탐색
(3) 분석 수행시 발생 가능한 요소 고려
03. 분석 마스터 플랜과 로드맵 설정
1) 분석 마스터 플랜
(1) 분석 마스터 플랜 수립 절차
(2) 정보전략계획(ISP: Information Strategy Planning)
2) 분석 과제 우선순위 평가 기준
(1) IT 프로젝트의 과제 우선순위 평가기준
- 전략적 중요도, 비즈니스 성과, ROI, 실행 용이성
* 적용범위/방식 고려요소
- 업무내재화 적용 수준, 분석데이터 적용 수준, 기술 적용 수준
(2) 데이터 분석 프로젝트의 과제 우선순위 평가 기준
* 빅데이터의 특징을 고려한 ROI요소 4V
투자비용요소 (3v): 데이터크기(Volume), 데이터 형태(Variety), 데이터 속도(Velocity)
비즈니스 효과(4v): 투자비용요소 + 새로운 가치(Value)
(3) 분석 ROI요소를 고려한 과제 우선 순위 평가기준
평가관점: 시급성 (비즈니스 효과)
- 전략적 중요도
- 목표가치(KPI)
평가관점: 난이도 (투자비용 요소)
- 데이터 획득 비용
- 데이터 가공 비용
- 데이터 저장 비용
- 분석 적용 비용
- 분석 수준
3) 분석 과제 우선순위 선정 및 조정
(1) 포트폴리오 사분면 분석 기법 활용
- 난이도와 시급성을 기준
(2) 매트릭스 내 분석 과제 우선순위 선정
(2) 매트릭스 내 분석 과제 우선순위 선정
- 가장 우선적으로 분석과제 적용이 필요한 영역은 3영역 이다.
- 우선순위가 낮은 영역은 2영역이다.
* 적용 우선순위 기준을 시급성 : 3 -> 4 -> 2
* 적용 우선순위 기준을 난이도 : 3 -> 1 -> 2
4) 분석 로드맵 설정
(1) 분석 로드맵 수립 절차
- 1단계: 데이터 분석체계 도입
- 2단계: 데이터 분석 유효성 검증
- 3단계: 데이터 분석 확산 및 고도화
(2) 세부적인 일정계획 수립
- 반복적인 정련 과정을 통해 프로젝트의 완성도를 높여 나간다.
- 데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행하고 모델링 단계는 반복적으로 수행한다.
- 주로 순차형과 반복형을 혼합하여 사용한다.
04. 분석 문제 정의
1) 분석 문제 정의 개요
(1) 분석 과제 도출
(2) 대표적인 분석 과제 도출 방법
- 하향식 접근방식: 문제가 먼저 주어지고 이에 대한 해법을 찾아가는 방식
- 상향식 접근방식: 데이터 기반으로 문제의 재정의 및 해결방안을 탐색하는 방식
(3) 최적의 의사결정을 위한 혼합 방식
- 상향식 접근방식의 발산(Diverge) 단계: 가능한 옵션을 도출
- 하향식 접근 방식의 수렴(Converge) 단계: 도출된 옵션을 분석하고 검증
(4) 분석 과제 정의
2) 하향식 접근 방식
(1) 문제 탐색 단계
(2) 문제 정의 단계
(3) 해결방안 탐색 단계
(4) 타당성 평가 단계
3) 하향식 접근 방식의 문제 탐색 방법
(1) 비즈니스 모델 캔버스를 활용한 과제 발굴
(2) 분석 기회 발굴의 범위 확장
4) 상향식 접근 방식
(1) 상향식 접근 방식의 특징
- 역으로 추적하면서 문제를 도출
(2) 상향식 접근 방식의 등장배경
- 기존 하향식 접근 방식의 한계를 극복하기 위해 등장
- 논리적 단계별 접근법은 문제의 구조가 분명하고 이에 대한 해결책을 도출하기 위한 데이터가 분석가나 의사결정자에게 주어져 있음을 가정
(3) 상향식 접근기반 전통적 분석 사고 극복방안
- 디자인 사고 접근법
- 비지도학습 방법에 의한 수행
- 빅데이터 환경에서의 분석
(4) 상향식 접근 방식의 문제 해결 방법
- 프로토타이핑 접근법: 일단 먼저 분석을 시도해 보고 그 결과를 확인하면서 반복적으로 개선
* 프로토타이핑 접근법의 필요성
- 문제에 대한 인식 수준
- 필요 데이터 존재 여부의 불확실성
- 데이터 사용 목적의 가변성
* 프로토타이핑 접근법의 프로세스
* 특징
- 잘 설계된 프로토타이핑을 지속하는 경우 실험이 가지고 있는 불명확성은 감소하고 의도했던 결과를 도출할 가능성이 높아진다.
- 빅데이터 분석환경에서는 최대한 빨리 분석 결과를 보여주고 이를 가지고 지속적으로 반복하는 방법이 효과적
* 구성
- 가설의 생성
- 디자인에 대한 실험
- 실제 환경에서의 테스트
- 테스트 결과에서의 통찰 도출 및 가설 확인
05. 데이터 분석 방안
1) 분석 방법론
- 데이터 분석을 효과적으로 수행하기 위하여 분석 절차를 체계적으로 정리한 방법
(1) 분석 방법론의 구성 요건
- 상세한 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
- 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
(2) 분석 방법론의 생성과정
- 형식화
- 체계화
- 내재화
2) 계층적 프로세스 모델 구성
(1) 단계(Phase) - 최상위 계층
(2) 태스크(Task) - 중간 계층
(3) 스텝(Step) - 최하위 계층
1) 소프트웨어개발생명주기
* 필요성
- 소프트웨어 위기를 대처
- 효과적인 소프트웨어 개발 수행
- 고품질 소프트웨어 생산성 확보
* 소프트웨어개발생명주기(SDLC : Software Development Life Cycle)
* 구성요소
- 계획(요구명세)
- 요구분석
- 설계
- 구현
- 시험
- 유지보수
(1)폭포수 모형
- 단계적,순차적,체계적으로 접근
(2) 프로토타입 모형
- 시스템의 일부분을 일시적으로 간략히 구현한 다음 다시 요구사항을 반영하는 과정을 반복
- 폭포수 모형의 단점을 보완
- 요구 분석의 어려움 해결을 통해 사용자의 참여를 유도한다.
- 요구사항 도출과 이해에 있어 사용자와의 커뮤니케이션 수단으로 활용 가능
- 사용자 자신이 원하는 것이 무엇인지 구체적으로 잘 모르는 경우 간단한 시제품으로 개발할 수 있다.
- 개발 타당성을 검토하는 수단으로 활용될 수 있다.
(3) 나선형 모델(Spiral Model)
- 나선을 돌면서 점진적으로 완벽한 시스템으로 개발
- 프로젝트의 완전성 및 위험 감소와 유지보수가 용이
- 관리가 중요하나 매우 어렵고 개발시간이 장기화될 가능성 있다.
- 폭포수, 원형 모형의단점 보완
- 구현단계: 계획 - 위험분석 - 개발 - 고객평가
(4) 반복적 모형
- 일부분을 반복적으로 개발하여 최종 시스템으로 완성
- 폭포수 + 원형 + 나선형 혼합
- 재사용성, 객체지향, RAD의 기반 제공
* 증분형(점증적) 모형
- 첫번째 검증은 핵심제품, 몇 사람만으로 구현 가능
- 프로토타입 모형과 같이 반복적이나 각 점증이 갖는 제품 인도에 초점을 두고 있다.
- 규모가 큰 개발 조직일 경우 자원을 각 증분 개발에 충분히 할당할 수 있어 각 증분의 병행 개발로 기간을 단축시킬 수 있다.
- 증분의 수가 많고 병행 개발이 빈번하게 이루어지면 관리가 어려워지고 PM은 증분 개발 활동간 조율에 많은 노력 필요
* 진화형(점진적) 모형
- 핵심부분을 개발한 후 각 구성요소를 지속적으로 발전
- 시스템의 요구사항을 사전에 정의하기 어려운 경우 사용
- 다음 단계로의 진화를 위해 전체 과정에 대한 개요가 필요
- 프로토타입을 만들고 이를 다시 분석함으로써 요구사항을 진화시키는 방법
- 프로토타입의 시스템은 재사용을 전재
(5) 소프트 웨어개발 생명주기 모형 선정 기준
- 프로젝트의 규모와 성격
- 개발에 사용되는 방법과 도구
- 개발에 소요되는 시간과 비용
- 개발과정에서의 통제수단과 소프트웨어 산출물 인도 방식
4) KDD 분석 방법론
(1) 9가지 프로세스
1. 분석 대상 비즈니스 도메인의 이해
2. 분석 대상 데이터셋 선택과 생성
3. 데이터에 포함되어 있는 잡음과 이상값 등을 제거하는 정제작업이나 선처리
4. 분석목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
5. 분석 목적에 맞는 데이터 마이닝 기법 선택
6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7. 데이터 마이닝 시행
8. 데이터 마이닝 결과에 대한 해석
9. 데이터 마이닝에서 발견된 지식 활용
(2) KDD 분석 방법론의 분석절차
- 데이터셋 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 마이닝 평가
5) CRISP-DM 분석 방법론
- 데이터의 탐색과 이해 및 데이터를 통한 문제인식과 해결이 가능
(1) 4계층
- 최상위 레벨 -> 일반화 태스크 -> 세분화 태스크 -> 프로세스 실행
(2) 분석절차
- 업무이해 ->데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
(3) KDD 분석 방법론과의 비교
CPISP-DM 분석 방법론 KDD 분석 방법론 업무 이해 - 데이터 이해 데이터셋 선택 데이터 전처리 데이터준비 데이터변환 모델링 데이터마이닝 평가 데이터 마이닝 결과 평가 전개 - 6) SEMMA 분석 방법론
- SEMMA(Sample, Explore, Modify, Model and Assess)
(1) 특징
- SAS Institute의 데이터 마이닝 도구와 손쉽게 접목하여 활용
(2) 분석절차
추출 -> 탐색 -> 수정 -> 모델링 -> 평가
06. 빅데이터 분석 방법론
1) 빅데이터 분석 방법론 개요
단계 -> 태스트 -> 스탭
2) 개발절차
(1) 분석 기획(Planning)
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
(2) 데이터 준비(Preparing)
- 필요데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
(3) 데이터 분석(Analyzing)
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
(4) 시스템 구현(Developing)
- 설계 및 구현
- 시스템 테스트 및 운영
(5) 평가 및 전개(Deploying)
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
반응형'program_language 및 궁금한것 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터분석기사/필기] 1-3-2. 데이터 적재 및 저장 (0) 2021.09.20 [빅데이터분석기사/필기] 1-3-1. 데이터 수집 및 전환 (0) 2021.09.20 [빅데이터분석기사/필기] 1-2-2. 분석 작업 계획 (0) 2021.09.18 [빅데이터분석기사/필기] 1-1-2. 빅데이터 기술 및 제도 (0) 2021.09.15 [빅데이터분석기사/필기] 1-1-1. 빅데이터 개요 및 활용 (0) 2021.09.13