hello, world!

(ADsP) [2과목] 데이터 분석 기획 / 요약정리 / 벼락치기 본문

Project & Study/ADsP

(ADsP) [2과목] 데이터 분석 기획 / 요약정리 / 벼락치기

ferozsun 2024. 3. 4. 20:10

1장 데이터 분석 기획의 이해

1절 분석 기획 방향성 도출

48. 분석 주제 유형

4가지 주제 유형 정의
* 분석의 대상 (what) / 분석의 방법 (how)
1. optimization: what-known, how-known 일 때
2. solution: what-known, how-unknown 일 때
3. insight: what-unknown, how-known 일 때
4. discovery: what-unknown, how-unknown 일 때

49. 목표 시점별 기획 방안

과제단위와 마스터플랜단위 구분 문제
당면한 분석 주제 해결            지속적 분석문화 내재화
과제단위                       마스터플랜 단위
- speed & test-------<1차 목표>-------accuracy & deploy
- quick-win----------<과제의 유형>----longterm view
- problem solving---<접근 방식>------problem definition

50. 분석기획 시 고려사항

분석기획 시 고려사항 3가지 객관식 보기
1. 가용한 데이터 (available data)
2. 적절한 유스케이스 (proper business use case) 탐색
3. 장애요소들에 대한 사전계획 수립 (low barrier of execution)

51. 데이터 저장 방식

 

2절 분석 방법론

52. 기업의 합리적 의사결정 장애 요소

기업의 합리적 의사결정 장애요소 3가지 정의
1. 고정관념 (stereotype)
2. 편향된 생각 (bias)
3, 프레이밍 효과 (framing effect) : 문제의 표현방식에 따라 같은 사건/상황임에도 개인의 판단이나 선택이 달라질 수 있는 현상

53. 분석 방법론의 구성 요소

54. 폭포수/나선형/프로토타입 모델

방법론의 적용 업무의 특성에 따른 모델 ★★
1. 폭포수 모델 (waterfall)
: 단계를 순차적으로 진행. 하향식 진행. 문제 발견시 전 단계로 돌아가는 피드백 수행.
2. 프로토타입 모델 (prototype)
: 고객의 요구 완전히 이해하지 못하고 있는 상황에 적합. 일부를 우선 개발하고 요구사항 분석 후 개선 작업 진행.
3. 나선형 모델 (spiral)
: 반복을 통해 점진적으로 개발하는 방법. 처음 시도하는 프로젝트에 용이. 관리체계 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행 어려움. 대규모 프로젝트에 적합.

55. KDD 분석 방법론

56. KDD 분석 절차

절차의 순서 묻는 문제, 단계별 내용 ★★★
1. 데이터셋 선택 (selection)
: 분석 대상 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정. 목표데이터 (target data) 설정.
2. 데이터 전처리 ★ (preprocessing)
: 잡음(noise), 이상값(outlier), 결측치(missing value)를 식별하고 필요시 제거
3. 데이터 변환 (transformation)
: 분석 목적에 맞는 변수 선택, 데이터 차원을 축소하여 효율적으로 데이터 변경. 학습용 데이터 (training data)와 시험용 데이터 (test data) 분리.
4. 데이터 마이닝 (data mining)
: 학습용 데이터를 이용해 목적에 맞는 데이터마이닝 기법 선택. 전처리, 변환 프로세스를 추가로 실행하기도 함.
5. 결과 평가 (interpretation/evaluation)
: 분석 결과에 대한 해석, 평가, 분석 목적과의 일치성 확인, 활용.

57. CRISP-DM 분석 방법론

화살표의 양방향(피드백)이 형성되는 구간 ★★★


 

58. CRISP-DM 분석 절차

CRISP-DM 분석 방법론 순서, 단계별 내용 구분 문제 ★★★★
1. 업무 이해 (business understanding)
: 비즈니스 관점 프로젝트의 목적과 요구 사항을 이해하는 단계. 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 쵝 프로젝트 계획을 수립하는 단계.
-> 업무 목적 파악, 상황 파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립으로 구성
2. 데이터 이해 (data understanding)
: 분석을 위한 데이터 수집. 데이터 속성을 이해하는 과정. 데이터 품질의 문제점 식별, 숨겨진 인사이트 발견.
-> 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3. 데이터 준비 (data preparation)
: 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터 세트를 편성하는 단계. 시간 많이 소요됨.
-> 분석용 데이터 세트 선택, 데이터 정제, 데이터 총합, 데이터 포맷팅
4. 모델링 (modeling)
: 다양한 모델링 기법과 알고리즘 선택, 모델링 과정에서 사용되는 파라미터 최적화하는 단계. 이 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋을 평가하여 모델 과대적합(overfitting) 등의 문제를 발견하고 대응방안을 마련.
-> 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
5. 평가 (evaluation)
: 프로젝트의 목적에 부합하는지 모델 평가. 데이터 마이닝 결과 수용 여부 최종 판단.
-> 분석 결과평가, 모델링 과정 평가, 모델 적용성 평가
6. 전개 (deployment)
: 모델링과 평가 단계를 통해 완서된 모델을 실제 업무에 적용하기 위한 계획 수립.
-> 전개계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토

59. 계층적 프로세스 모델 3계층 구성

1. 단계 (phase)
2. 태스크 (task)
3. 스텝 (step)

60. 빅데이터 분석 방법론

객관식 문항
- 분석단계 수행하는 중 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백 가능
- 데이터 분석단계에서 프로토타입 시스템을 구현하고자 하는 경우 시스템 구현 단계 수행
 
빅데이터 분석 방법론 단계 태스크 스탭 으로 구분 가능, 순서, 해당 단계의 태스크 뭔지 ★★★★

1. 분석 기획 phase
: SOW, WBS
: 예상되는 위험에 대한 대응회피(avoid), 전이(transfer), 완화(mitigate), 수용(accept)
3. 데이터 분석 phase
: 모델링 중요해서 64번에 정리

64. 모델링

모델링 ★★★
: 분석용 데이터를 이용한 가설설정 통해 통계 모델 만들거나 기계학습을 이용한 데이터 분류, 예측, 군집 등 기능 수행하는 모델 만드는 과정

65. 모델 평가 및 검증

66. 시스템 구현 phase

객관식 보기 ★★★
단순한 데이터 분석이나 데이터 마이닝을 통한 보고서 작성하는 것으로 프로젝트가 종료되는 경우, 시스템 구현 단계를 수행할 필요가 없고, 다음 단계인 평가 및 전개 단계를 수행.

67. 평가 및 전개

 

3절 분석 과제 발굴

68. 분석 과제 발굴

하향식 접근방식과 상향식 접근방식 차이점 ★★★
1. 하향식 접근 방식 (top down) -> converge
: 분석 과제 주어지고 해법 찾기위해 체계적으로 단계화되어 수행하는 방식 (전통적, 과거)
2. 상향식 접근 방식 (bottom up) -> diverse
: 문제의 정의 자체가 어려운 경우. 데이터를 기반으로 문제를 지속적으로 개선하는 방식(요즘)

69. 디자인 씽킹

70. 디자인 씽킹 프로세스 5단계

71. 하향식 접근법 (top-down)

하향식 접근과정 순서, 이어지는 뒤 내용 전부 ★★★★


 
객관형 보기
하향식 접근법의 한계. 문제의 구조가 분명하고 문제를 해결하고 해결책 시도에는 적합하나, 새로운 문제의 탐색에 한계가 있음.

72. 문제 탐색 (problem discovery) - 1

비즈니스 모델 기반 문제 탐색인 것 아닌 것 문제
1. 업무 (operation)
2. 제품 (product)
3. 고객 (customer)
4. 규제와 감사 (regulation & audit)
5. 지원 인프라 (IT & human resource)

73. 혁신의 관점(중장기관점) 분석기회 발굴확장

분석 기회 발굴의 범위 확장시 4가지 관점
1. 거시적 관점
: 사회, 기술, 경제, 환경, 정치 영역
2. 경쟁자 확대
: 대체재, 경쟁자, 신규 진입자 영역
3. 시장니즈 탐색
: 고객, 채널, 영향자들 영역
4. 역량의 재해석
: 내부역량, 파트너 네트워크 영역

74. 외부 참조 모델 기반 탐색

75. 문제 정의 (problem definition) - 2

비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

76. 해결 방안 탐색 (solution search) - 3

분석역량(who), 분석기법 및 시스템(how)로 해결방안 탐색

77. 타당성 검토 단계 (feasibility study) - 4

3가지 타당성 검토 종류 및 개념
1. 경제적 타당성: 비용대비 편익 분석 관점
2. 데이터 타당성: 데이터 존재 여부
3. 기술적 타당성: 기술적 분석역량 확보

78. 상향식 접근 방식 (bottom up approach)

상향식 접근 방식의 개념 ★★★
- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통해 통찰력과 지식 얻는 방법
- 다양한 원천 데이터를 대상으로 분석을 수행해 가치 있는 모든 문제를 도출하는 과정
- 비지도 학습 (unsupervised learning) 방법에 따라 수행됨
- design thinking 접근법 통해 why-> what 관점으로 존재하는 데이터 자체를 객관적으로 관찰
- 시행착오를 반복해 문제 해결: 프로토타이핑 접근법 (=애자일 모델)

79. 프로토타이핑 프로세스

80. 빅데이터 환경에서 프로토타이핑 역할

빅데이터 환경에서 프로토타이핑 3가지 역할
1. 문제에 대한 인식 수준: 문제를 이해하고 구체화하는데 도움
2. 필요데이터 존재 여부의 불확실성: 필요한 데이터가 존재하지 않을 때 어떻게 수집/대체할지
3. 데이터 사용 목적의 가변성: 데이터의 사용 범위 확대

81. 분석 과제 정의서

 

4절 분석 프로젝트 관리 방안

82. 분석 프로젝트 관리 방안

분석 프로젝트 5가지 속성 ★★★★
1. data size
2. data complexity
3. speed
4. analytic complexity
5. accuracy & precision ★★★
- accuracy: 모델과 실제값 차이가 적다는 정확도 (분석의 활용측면에서 중요)
- precision: 모델을 지속적으로 반복했을 때 편차의 수준 (안정성 측면에서 중요)
* 둘은 트레이드 오프 관계

83. 분석 프로젝트 영역별 주요 관리 항목

1. 범위 (scope)
2. 시간 (time) ★★
: 데이터 분석 초기에 결과 쉽게 나오지 않기 때문에 시간 소요됨.
: 그래서 타임박싱기법으로 일정을 관리 (철저한 통제x)
3. 원가 (cost)
4. 품질 (quality)
5. 통합 (integration)
6. 조달 (procurement)

 

2장 분석 마스터 플랜

1절 마스터 플랜 수립 프레임 워크

84. 분석 마스터 플랜

정의
분석 과제를 대상으로 다양한 기준을 고려해 적용 우선순위를 설정하고, 데이터 분석 구현을 위한 로드맵을 수립

85. 마스터 플랜 수립 프레임 워크

중장기적 마스터 플랜 수립 시 우선순위 고려요소와 적용범위/방식 고려요소 구분 문제 ★★★★★


 

86. ROI 관점에서 보는 빅데이터 4V

투자비용 요소와 비즈니스효과 요소 구분 문제 ★★★

 

87. ROI 요소를 고려한 우선순위 평가 기준

시급성, 난이도 구분 기준
1. 시급성: 시점에 따른 중요도 고려 (value-> 비즈니스 효과)
2. 난이도: 비용, 범위 측면 고려 (volume, variety, velocity-> 투자비용 요소)

88. 사분면 분석을 통해 과제 우선순위를 선정하는 기법

분석과제의 적용이 난이도, 시급성에 따라 우선순위 순서 구분


- 시급성 순: 3 -> 4 -> 2
- 난이도 순: 3 -> 1 -> 2

89. 분석 과제 우선순위 조정

분석 적용 범위 및 방법, 기술적 요소에 따라 난이도를 조정할 수 있다.

 

2절 분석 거버넌스 체계 수립

90. 분석 거버넌스

91. 분석 거버넌스 체계 구성 요소

분석 거버넌스 5개 구성요소 ★★
1. 조직 (organization)
2. 과제기획 및 운영 프로세스 (process)
3. 분석 관련 시스템 (IT 시스템 & 프로그램) (system)
4. 데이터 (데이터 거버넌스) (data)
5. 분석 관련 교육 및 마인드 육성체계 (human resource)

92. 데이터 분석 성숙도 모델 및 수준 진단

분석준비도 6개 영역과 세부 내용 구분 ★★★★


 

93. 분석 성숙도 모델

3개 영역별 도입, 활용, 확산, 최적화 단계 구분 ★★★★

 
* 조직의 성숙도 평가도구: CMMI

94. 분석 수준 진단 결과 유형별 특성 구분

95. 데이터 거버넌스란

정의 ★★
- 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함.
- 마스터 데이터, 메타 데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상이다.

96. 빅데이터 거버넌스와 데이터 거버넌스 차이점

97. 데이터 거버넌스의 구성요소

데이터 거버넌스 3개 구성요소
1. 원칙 (principle)
2. 조직 (organization)
3. 프로세스 (process)

98. 데이터 거버넌스 체계 요소

데이터 거버넌스 체계 ★★★★★
1. 데이터 표준화 ★★★
: 데이터 표준 용어 설명, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축
2. 데이터 관리 체계 ★★★
: 메타 데이터와 데이터 사전의 관리 원칙을 수립
3. 데이터 저장소 관리 (repository) ★★★
: 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성.
: 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통항 통제가 이루어져야 한다.
: 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능.
4. 표준화 활동
: 데이터 거버넌스 체게를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 시행

99. 데이터 분석업무 주체에 따른 3가지 유형

분석을 위한 3가지 조직 구조 ★★★


 

100. 분석 과제 관리 프로세스 수립


 

101. 분석 교육 및 변화관리

102. 데이터 거버넌스와 관련된 용어정리

Comments