과목 1. 데이터의 이해
📍데이터베이스의 특징?
- 통합된 데이터 ★
- 저장된 데이터
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어있다.
- 운영 데이터
데이터 베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다.
틀린 선지 : 데이터 베이스는 검색기능(❌)을 가지고 있으므로 다양한 방법으로 필요한 정보를 검색할 수 있다
📍데이터 사이언티스트에게 요구되는 소프트 역량?
- 창의적 사고
- 커뮤니케이션 기술
- 비쥬얼라이제이션을 활용한 설득력
- +) 호기심, 스토리텔링
틀린 선지 : 이론적 지식(❌)
이론적 지식은 소프트 역량에 없습니다~
📍빅데이터 가치 산정 어려운 이유 (사례)
- 독자의 전자책 독서 순서 정보가 저자의 글쓰기 방식에 영향을 주는 현상 (O)
- 데이터 활용방식(재사용, 재조합, 다목적용 개발), 새로운 가치 창출, 분석기술발전
- 은행 대출심사 알고리즘 작동원리 이해의 어려움(❌)
📍개인정보 비식별화 기술
- 데이터 마스킹은 **이렇게 변경시키는 거고
- 가명처리는 아예 다른 이름으로 대체시키는 것!!!!

- 독자의 전자책 독서 순서 정보가 저자의
과목 2. 데이터 분석 기획
📍분석 기회 발굴의 범위 중 시장니즈 탐색 관점에서 '고객니즈의 변화'에 해당하는 것?
- 고객
- 채널
- 영향자들
틀린 선지 : 대체제(❌)
대체제는 고객니즈의 변화가 아니라 경쟁자 확대 관점이지!!!!

📍분석 프로젝트 영역별 주요관리항목?
- 품질
- 시간
- 자원
- +) 범위, 원가, 통합, 조달, 리스트, 의사소통, 이해관계자
틀린 선지 : 가격 (❌) 3V, 4V 아닙니다~ 관련없어요~ 프로젝트에서 관리해야하는 항목입니다.
📍분석 프로젝트 관리
- 분석 프로젝트 일정계획 수립 시 데이터 수집에 대한 철저한 통제와 관리가 필요 (❌)하다
- ➡️ 일정 계획 수립할 때 분석범위가 빈번하게 변경되니까 통제하면 안됨!!! Time Boxing 기법과 같은 방법으로 일정관리하는게 중요
📍상향식 vs 하향식 접근방식
- 상향식 접근방식 - 'what' 관점 : 사물을 있는 그대로 인식하면서 접근!!!!!
- 인사이트를 도출한 후 반복적인 시행착오를 통해서 수정하며 문제를 도출하는 일련의 과정
- 하향식 접근방식 - 'why' 관점 : 주제 하나 잡고 왜그럴까~ 문제 해결방식인 하향식 접근방식
📍데이터 거버넌스의 구성요소
- 원칙
- 조직
- 절차 = 프로세스
- 분석방법 (❌)
과목 3. 데이터 분석
📍안정 시계열
- 안정적 시계열은 시간의 추이와 관계 없이 평균, 분산이 불변하여, 변화했다고 해도 다시 평균으로 회귀하는 경향을 보인다.
- 현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향을 미치지 못함
- 어느 시기에 충격이 발생하여 y값이 평균 이하로 감소하면
미래의 어느 기간에 걸쳐서 y의 증가율이 일시적으로 평균 수준보다더 높아야 y의 평균수준을 회복하며
현재의 충격이 무한 미래의 y에 미치는 영향이 소멸됨
📍R에서 사용가능한 데이터 오브젝트
- 리스트에서 원소들은 다른 모드여도 상관없다. (O)
- 벡터에서 모든 원소는 같은 모드여야한다. (O)
- 데이터 프레임은 테이블로된 데이터구조로서 행렬(❌)로 표현된다. ➡️ 행렬이 아니라 리스트 구조(O)로 구현이제!!!
📍모분산의 추론에 대한 설명
- 이표본에 의한 분산비 검정은 두표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F-분포를 따른다.
- 모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.
틀린 선지 : 평균 모집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 t분포(❌)를 따른다.
▶️ 표본의 분산은 카이제곱 분포를 따른다!!!!!!!
📍주성분 분석
- 주성분 분석 : 분산을 최대화하는 차원을 찾는 방법
- 공분산 행렬에서 고윳값(변수의 중요도 기준)을 통해 찾을 수 있다.!!
📍회귀모형 안정성 평가 - 개체 영향력 진단
- 영향력 진단 : 적합된 회귀모형의 안정성을 평가하기 위한 통계적 방법
- 안정성이 약하다 = 자료에서 특정 관측치가 제외됨에 따라 분석결과의 주요 부분에 많은 변동이 있다면 안정성이 약하다고 판단
- 영향점 : 비교할 대상이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀 계수 추정값을 변화시키는 관측개체
- 쿡의 거리 : 관측개체 하나가 제외되었을 때 최소제곱추정치 벡터의 변화를 표준화한 측도
- DFFITS (Difference in fits) : 절댓값이 공식에 대입한 값보다 큰 값이 나타나야 높은 영향력으로 간주함
- 틀린 선지 : 절댓값이 매우 큰(❌) 관측개체는 y의 예측에 영향력이 크다고 간주(❌)
📍다중회귀분석을 위해 사용되는 변수선택방법
- 전진선택법은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다.
틀린 선지 : 최적선택법(❌)은 전진선택법과 후진제거법을 결합한 방법으로 회귀식이 최적의 변수를 선택하도록 하는 방법이다.
▶️ 다중회귀분석에서 변수선택법은 전진선택법, 후진제거법, 단계적 선택법이 있다.
📍상자그림을 이용해 이상치를 판정하는 방법
- 이상치는 변수의 분포에서 벗어난 값(O)으로 상자그림을 통해 확인할 수 있다.
틀린 선지 : 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거(❌)한다.
▶️ 이상치라고 규정한 자료는 분석에서 제외는 할 수 있지만, 무조건적으로 제거할 수는 없어!!!!
📍연속형 확률분포
- 균일분포, 균등분포
- 지수분포
- 정규분포
- t분포 (평균이 동일한지)
- F분포 (분산의 동일성 검정)
- X^2 카이제곱 분포 (두집단의 동질성 검정, 표본의 분산)
- 이항분포 ➡️ 이산형 확률변수 (+베르누이 확률분포, 이항분포, 기하분포, 초기하분포, 다항분포, 포아송분포)
📍비모수검정 : 모집단의 분포에 아무제약 가하지 않고 검정실시하는 방법
- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
- 또, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우 이용
- 부호검정, 윌콕슨의 순위합검정, 맨-휘트니의 U검정,런 검정, 스피어만의 순위상관계수
- 자기상관검정 (❌)
↔ 모수검정 : 관측된 자료로 구한 표본평균과 표본분산등을 이용해 검정을 실시하는 것
📍종속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은?
- 표준화 자료로 추정한 계수가 가장 큰 변수 (O)
- ➡️ 추정한 계수가 클수록 종속변수에 영향을 가장 많이 미치게 된다.
- ➡️ 특히 베타0이 없는 표준화된 추정식을 만들게 되면 각 계수의 크기를 더욱 정확히 알 수 있게 된다.
📍비계층적 군집분석의 장점
- 주어진 데이터의 내부구조에 대한 사전정보가 없어도 의미있는 결과를 얻을 수 있다
- 다양한 형태의 데이터의 적용이 가능하다
- 분석방법의 적용이 용이하다
- 사전에 주어진 목적이 없으므로 결과해석이 어렵다
📍ROC ( Receive Operating Characteristics)
모형의 성능을 평가할 때 사용되는 방법론 중 사후확률과 각 분류 기준값에 의해 오분류행렬을 만든 다음,
민감도와 특이도를 산출하여 도표에 도식화하여 평가하는 방식
(x축은 1-특이도로 y축은 민감도로 설정하여 그려지는 모형을 평가하는 지표)
📍민감도 / 정확도 / 특이도 구하는 방법
- 민감도 : 양성이라고 판단되는 값(TP) / 실제 양성의 값(TP+FN)
- 정확도 : 양성, 음성이라고 판단되는 값(TP+TN) / 실제 양성과 음성의 값(TP+FN+FP+TN)
- 특이도 : 음성이라고 판단되는 값(TN) / 실제 음성의 값(FP+TN)
- 지지도 : 전체 거래 품목중 품목 A와 품목 B를 동시에 포함하는 거래의 비율
- P(A ∩ B)
- 향상도 : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가비율
- 신뢰도 : 항목 A를 포함한 거래 중에서 항목 와 B가 같이 포함될 확률은 어느정도인가 나타내주는 연관성의 정도
📍마할라노비스 거리
- 계층적 군집방법 : 두 개체 간의 거리(비유사성)에 기반하여 군집을 형성해나가므로 거리에 대한 정의가 필요한데
- 마할라노비스 거리 : 변수의 표준화와 변수간의 상관성을 동시에 고려한 통계적 거리
- 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
- 맨하탄 거리 : 절댓값으로 빼고 더해
📍로지스틱 회귀분석
- 로지스틱 회귀분석
- 독립변수의 선형결합을 이용하여 사건의 발생가능성을 예측하는데 사용되는 통계기법
- 반응변수가ㅓ 범주형인 경우에 적용
- 로지스틱 회귀분석의 모형 검정방법 : 카이제곱 검정!!!
📍비지도 신경망 SOM
- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
- 경쟁층 : 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
주관식 문제
📍마스킹 (Masking)
개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는
데이터 변환방법
📍분석 유즈 케이스
풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써
향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것
📍데이터 무결성 (Integrity)
데이터 베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해
데이터 변경 혹은 수정 시 여러가지 제한을 두어 정확성을 보증하는 것
📍분석 준비도 6개의 영역 중 2가지 적어라
- 분석업무
- 분석 인력/조직
- 분석기법
- 분석 데이터
- 분석 문화
- 분석 인프라
📍데이터 거버넌스 (마데 / 메데 / 데사)
데이터 거버넌스란 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.
특히 마스터데이터, 메타데이터, 데이터 사전은 데이터 거번스의 중요한 관리 대상이다.
📍비즈니스 모델 캔버스
9가지 블록을 단순화 하여 업무, 제품, 고객 단위로 문제를 발굴하고
이를 관리하는 규제와 감사, 지원 인프라 영역으로 나눠 분석기회를 도출한다.

📍머신 러닝
- 데이터의 패턴을 발견하고 데이터 모델의 매개변수를 자동으로 학습한다.
- 자체 알고리즘을 사용하여 시간이 경과함에 따라서 경험을 축적하면서 작업성능이 향상된다.
📍회귀 나무
의사결정나무 중에서 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무(나무는 나무인데, 예측하는거니까 회귀나무)
📍랜덤 포레스트
데이터 마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로
랜덤한 forest에는 많은 트리들이 생성된다.
새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 R 패키지
📍앙상블 기법
- 이상값에 대한 대응력이 높아진다.
- 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다.
- 모형의 투명성이 떨어져 원인분석에는 적합하지 않다.
- 각 모형의 상호 연관성이 높을수록 정확도가 향상된다. (❌) ➡️ 아니? 오히려 상호연관성 높으면 정확도 떨어짐
다수 모델의 예측을 관리하고 조합하는 기술을 메타학습이라 한다.
여러 분류기(classfier)들의 예측을 조합해봄으로써 분류정확성을 향상시키는 기법
'📝 자격증 > ADsP : 데이터분석 준전문가' 카테고리의 다른 글
| [ADsP] 자격증 합격 🎉 (0) | 2023.11.19 |
|---|---|
| [ADsP 3과목 : 데이터 분석 - 4장 통계분석] 요점 정리 및 오답노트 (1) | 2023.10.17 |
| [ADsP 2과목 : 데이터 분석 기획] 오답 노트 (0) | 2023.09.30 |
| [ADsP 2과목 : 데이터 분석 기획] 요점 정리 (0) | 2023.09.30 |
| [ADsP 1과목 : 데이터 이해] 요점 정리 및 오답 노트 (0) | 2023.09.23 |