hello, world!

(ADsP) [1과목] 데이터 이해 / 요약정리 / 벼락치기 본문

Project & Study/ADsP

(ADsP) [1과목] 데이터 이해 / 요약정리 / 벼락치기

ferozsun 2024. 3. 3. 23:42

1장 데이터의 이해

1절 데이터와 정보

01. 데이터의 정의

객관적 사실로서 개별 데이터는 중요하지 않음을 의미 -> 거짓
 
데이터의 특성
1. 존재적 특성: 객관적 사실
2. 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거

02. 데이터의 유형

데이터의 유형 구분문제
1. 정성적 데이터 (질적자료)
 - 형태 정해져 있지 않음. 저장, 분석에 많은 시간, 비용 필요.
 - 숫자나 금액으로 환산x
 - ex. 설문조사, 주관식 응답, 트위터, 페이스북 등
2. 정량적 데이터 (양적자료)
 - 수치, 기호, 도형으로 표시. 저장, 분석 용이
 - 숫자나 금액으로 환산o
 - ex. 온도, 풍속, 강수량 등

03. 암묵지 vs. 형식지

형식지와 암묵지 개념과 사례 구분
암묵지: 학습 경험을 통해 체화된 노하우 (김장, 자전거 타기) -> 공유되기 어려움
형식지: 문서, 매뉴얼처럼 형상화된 지식 (교과서, 비디오, DB) -> 공유 쉬움

04. 암묵지와 형식지의 상호작용

상호작용 4가지 개념 (암묵지-> 형식지 전환되는 시점)
1. 공통화: 암묵지 노하우를 다른 이에게 알려줌
2. 표출화 암묵지 노하우를 책, 교본 형식으로 만듦
3, 연결화: , 교본에 자신이 아는 새로운 지식 추가
4. 내면화: 만들어진 책, 교본 보고 타인들이 암묵지 지식을 습득

05. 데이터와 정보관계

DIKW 개념 구분과 사례 ★★★
1. Data: 형식 불문, 타 데이터와 상관관계 없는, 가공하기 전의 순수한 수치, 기호
ex. 연필가격: a마트 100, b마트 200
2. Information: 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미 부여
ex. a마트의 연필이 더 싸다
3. Knowledge: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
 ex. 저렴한 a마트에서 연필을 사야겠다
4. Wisdom: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어
 ex. a마트의 다른 상품들도 b마트보다 쌀 것이라고 판단

 

2절 데이터베이스 정의와 특징

06. 데이터베이스 정의

데이터베이스와 데이터베이스관리시스템 개념 구분
1. 데이터베이스
: 동시에 복수의 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라 편성된 데이터의 집합
2. DBMS: DataBase Management System
: 데이터베이스를 조작하는 별도의 소프트웨어. DBMS를 통해 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유, 사용할 수 있는 환경을 제공.
: DBMS는 데이터베이스를 구축하는 틀을 제공, 효율적으로 데이터 검색, 저장하는 기능 제공. 응용프로그램들이 데이터베이스에 접근할 수 있는 인터페이스 제공. 장애에 대한 복구 기능, 사용자 권한에 따른 보안성 유지기능 제공.

07. DBMS의 발전 과정

파일시스템의 단점(중복성, 종속성) 때문에 DBMS가 나오게됨.
객체지향 DBMS -> 효율성 (클래스)


SQLNoSQL 특징

08. RDBMS vs ODBMS 특징 구분

RDBMSODBMS 차이점

09. 데이터의 유형 분류

데이터 유형 특징 구분, 종류
1. 정형 데이터: RDBMS의 고정된 필드에 저장. 데이터 스키마 지원.
 ex. RDB, 스프레드 시트
2. 반정형 데이터: 데이터속성인 메타데이터를 가짐. 일반적으로 스토리지에 저장됨.
 ex. HTML, JSON, 웹문서, 센서 데이터

10. 스키마와 인스턴스

11. 데이터베이스 설계 순서

데이터베이스 설계순서
1. 요구조건 분석
2. 개념적 설계 (E-R 모델)
3. 논리적 설계 (테이블 설계)
4. 물리적 설계 (데이터 구조화)

12. 데이터베이스 특징

4가지 특징, 특히 데이터웨어하우스 특징과 구분이 포인트 ★★★
1. 통합된 데이터 (integrated data)
 : 동일한 데이터가 중복되지 않았다는 것을 의미
2. 저장된 데이터 (stored data)
 : 자기 디스크나 자기 테이프 등 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
3. 공용 데이터 (shared data)
 : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
4. 변화되는 데이터 (changed data) -> unchanged라고 오답출제된 적 있음.
 : 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄
* 데이터웨어하우스: 표준화된 저장소 (여기서는 바로 데이터를 가져다 쓸 수 있음)

13. 데이터베이스 특성

 

3절 데이터베이스의 활용

14. OLTP vs OLAP

두 개념의 차이
1. OLTP (On-Line Transaction Processing)
: 네트워크 상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신, 조회하는 등의 단위 작업을 처리하는 방식
2. OLAP (On-Line Analytic Processing)
: 정보 위주의 처리 분석. 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술.

15. 데이터 웨어하우스 vs 데이터 마트

데이터 마트와 데이터 웨어하우스의 개념 구분
1. 데이터 웨어하우스 (DW) -> 제공자의 범위가 더 넓음
2. 데이터 마트 (DM)
: 데이터 웨어하우스 환경에서 정의된 접근 계층. 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할. 데이터 웨어하우스의 부분, 특정 조직/팀에서 사용하는 것을 목적으로 함.

16. 데이터 웨어하우스 특징

데이터웨어하우스와 데이터베이스 특징 구분
1. 데이터의 주제지향성
2. 데이터의 통합성
3. 데이터의 시계열성
4. 데이터의 비휘발성

17. CRM SCM

18. 실시간 기업 (RTE: Real-Time Enterprise)

19. ERPBI

ERP정의, BI BA 개념 구분
1. BI (Business Intelligence)
: 데이터 기반 의사결정을 지원하기 위한 리포트 중심 도구
2. BA (Business Analytics)
: 소프트웨어로 데이터를 분석해 미래를 예측하거나 (예측분석), 특정 접근법을 적용했을 때 발생할 수 있는 일을 내다보는 (처방적분석) 기술의 도움을 받는 과정. 그래서 고급분석 (advanced analytics)라고도 불림.

20. 기타 기업내부 데이터베이스 솔루션

EAI (Enterprise Architecture Integration)
: 기업 애플리케이션 통합을 의미. 기업 내의 ERP(전사적자원관리), CRM(고객 관계관리), SCM(공급망계획) 시스템이나 인트라넷 등 시스템 간에 상호 연동이 가능하도록 통합하는 솔루션

 

2장 데이터의 가치와 미래

1절 빅데이터의 이해

21. 빅데이터의 특징

3V 정의
1. volume (데이터의 크기): 데이터는 특정 크기 이상이어야 한다~
2. variety (데이터의 다양성): 정형, 반정형, 비정형이 있다~
3. velocity (데이터의 속도): 주기별로 분기별로 데이터를 모을 수 있다~

22. 빅데이터 등장하게 된 결정적 요인

클라우드 컴퓨팅과 분산처리기술이 빅데이터가 등장하게 된 결정적 요인이다 ->

23. 빅데이터 출현배경

빅데이터 출현배경에 관한 문제
1. 산업계 양질 전환 법칙
2. 학계 빅데이터를 다루는 현상이 증가
3. 관련 기술발전 디지털화, 저장기술발전, 인터넷/모바일 시대 진전에 따른 클라우드 컴퓨팅

24. 빅데이터 기능

빅데이터는 ~에 비유된다
1. 산업혁명의 석탄, 철에 비유된다
2. 원유에 비유된다
3. 렌즈에 비유된다 ★ (ex. ngram viewer, 현미경)
4. 플랫폼에 비유된다 ★ (ex. 페이스북, OS)

25. 빅데이터가 만들어 내는 본직적 변화

빅데이터가 만들어 내는 본직적 변화 (과거, 현재 순서를 바꿔서 오답출제)
1. 사전처리 -> 사후처리
2. 표본조사 -> 전수조사
3. -> (구글의 자동번역, 결정계수)
4. 인과관계 -> 상관관계

 

2절 빅데이터의 가치와 영향

26. 빅데이터의 가치 산정이 어려운 이유

빅데이터가 가치 산정이 어려운 이유와 사례
1. 데이터 활용방식
: 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
2. 새로운 가치 창출
: 기존에 없던 가치 창출함
3. 분석 기술의 발달
: 추후 분석 기법이 발달하면 거대한 가치를 지닌 데이터가 될 수도 있음

 

3절 비즈니스 모델

27. 빅데이터 활용대표 사례

빅데이터 활용 사례
1. 기업
: 구글검색(로그 데이터 활용 기존 페이지랭크 개선), 월마트 구매패턴 분석, IBM 왓슨 인공지능 병원 진료에 활용
2. 정부
: 환경탐색(실시간 교통정보수집, 기후정보), 상황분석(소셜미디어, CCTV, 통화기록)
3. 개인
: 정치인-사회관계망 분석 활용 선거 유세, 가수-팬들의 청취 분석해 공연 노래 순서 선정

28. 빅데이터 활용 기법

분석기법 정의와 사례들 ★★★★★
1. 연관규칙학습 (association rule learning)
: 어떤 변수 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
ex. 마트에서 상관관계 높은 우유 & 기저귀 함께 진열
2. 유형분석 (classification tree analysis)
: ‘사용자가 어떤 특성을 가진 집단에 속하는가?’와 같은 문제 해결하고자 할 때 사용
 ex. 온라인 수강생들의 특성에 따라 분류
3. 유전 알고리즘 (genetic algorithms)
: ‘최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하는가?’라는 문제 해결시
 ex. 연료 효율적인 차 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야하는가?
 ex. 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
4. 기계 학습 (machine learning)
: 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까?
: 훈련 데이터로부터 학습하여 예측하는 일에 초점
 ex. 넷플릭스 영화추천 시스템
5. 회귀분석 (regression analysis)
: 구매자의 나이가 구매 차량 타입에 어떤 영향을 미치는가?
6. 감정분석 (sentiment analysis)
: 새로운 환불 정책에 대한 고객의 평가는 어떤가?
 ex. 소셜미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 사용
7. 소셜 네트워크 분석 (social network analysis) = 사회 관계망 분석 (SNA)
: 영향력 있는 사람을 찾아낼 때 사용. 특정인과 다른 사람이 몇 촌 정도의 관계인가?

 

4절 위기 요인과 통제 방안

29. 빅데이터 시대의 위기 요인과 통제방안

위기요인 -> 통제방안(대응책) ★★★★★
1. 사생활 침해 -> 동의에서 책임으로
2. 책임 원칙의 훼손 -> 결과 기반 책임 원칙 고수
3. 데이터 오용 -> 알고리즘 접근 허용

 

5절 미래의 빅데이터

30. 데이터 3법이란

31. 개인정보의 수집 및 수집 목적내 이용이 가능한 경우

32. 개인정보 수집/이용 동의 시 필수 고지 사항

33. 개인정보 비식별화

34. 빅데이터의 활용에 필요한 3요소

빅데이터 활용 3요소
1. 데이터: 모든것의 데이터화 (datafication)
2. 기술: 진화하는 알고리즘, 인공지능
3. 인력: 데이터 사이언티스트, 알고리즈미스트

 

3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1절 빅데이터 분석과 전략 인사이트

35. 빅데이터의 열풍과 회의론

빅데이터 성과 객관식 보기
1. 빅데이터 분석은 통찰을 끌어내는 것이 관건. 복잡하고 다양한 분석이 중요하진 않고, 가치에 적합한 분석을 해야함
2. 데이터는 크기가 이슈가 아님. 다양한 유형으로부터 의미있는 정보를 추출하는 것이 중요
3. 대부분 성과 높은 기업일수록 데이터 기반 의사결정을 하지만, 모든 기업이 그렇게 할 수 있는 것 아님

36. 일차적인 분석 vs 전략 도출을 위한 가치 기반분석

일차적인 분석의 한계점 등이 객관식 오답보기 문제
1. 일차적인 분석의 문제점
: 일차적인 분석을 통해서도 해당 부서, 업무영역 효과를 얻을 수 있지만, 일차적인 분석은 태생적으로 업계 내부의 문제에만 초점을 둠. 새로운 기회 포착 어려움.
-> 전략적 인사이트 가치 기반을 위해서 인구통계학적 변화, 경제사회 트랜드, 고객 니즈의 변화 고려해야 함. , 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별점 고려해야함
2. 전략 도출 가치 기반 분석
: 전략적 통찰력의 창출에 포커스-> 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원 얻음. 분석의 활용 범위를 더 넓고 전략적으로 변화시키고, 전략적 인사이트를 주는 가치 기반의 분석 단계로 나아가야 함

 

2절 전략 인사이트 도출을 위한 필요 역량

37. 데이터 사이언스 vs 데이터 마이닝 vs 통계학 차이

데이터 사이언스 정의와 데이터 마이닝과 통계학 구분 ★★★
1. 데이터 사이언스란
: 데이터로부터 의미 있는 정보를 추출하는 학문. 데이터공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문.
2. 통계학과의 차이
: 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법 사용
3. 데이터 마이닝과의 차이
: 데이터 마이닝은 주로 분석에 초점을 두나, 데이터사이언스는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념

38. 데이터 사이언스 핵심구성요소

3가지 핵심 구성요소
1. IT
2. Analytics
3. 비즈니스 분석

39. 데이터 사이언티스트가 갖춰야 할 역량

40. 데이터 사이언티스트 요구역량

데이터 사이언티스트의 요구 역량 ★★★
1. hard skill: 빅데이터에 대한 이론적 지식, 분석기술에 대한 숙련
2. soft skill: 통찰력 있는 분석, 설득력 있는 전달, 협력 ★★
 
데이터 사이언스: 과학과 인문의 교차로
단순 데이터 처리 능력보다 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각 등 인문학적 요소가 필요

41. 인문학의 부활 이유

42. 데이터 사이언티스트 6가지 핵심 질문

43. 가치 페러다임의 변화

44. 자주 출제되는 기타 용어정리 (단답형 없어져서 안봐도 될 듯)

45. SQL 분류

46. ETL (Extraction, Transformation and Load)

47. 하둡의 구성요소

Comments