[ADsP] 모의고사 및 기출문제 오답노트

과목 1. 데이터의 이해

📍데이터베이스의 특징?

통합된 데이터 ★
저장된 데이터
공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어있다.
운영 데이터

데이터 베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다.

틀린 선지 : 데이터 베이스는 검색기능(❌)을 가지고 있으므로 다양한 방법으로 필요한 정보를 검색할 수 있다

📍데이터 사이언티스트에게 요구되는 소프트 역량?

창의적 사고
커뮤니케이션 기술
비쥬얼라이제이션을 활용한 설득력
+) 호기심, 스토리텔링

틀린 선지 : 이론적 지식(❌)
이론적 지식은 소프트 역량에 없습니다~

📍빅데이터 가치 산정 어려운 이유 (사례)

독자의 전자책 독서 순서 정보가 저자의 글쓰기 방식에 영향을 주는 현상 (O)
- 데이터 활용방식(재사용, 재조합, 다목적용 개발), 새로운 가치 창출, 분석기술발전
은행 대출심사 알고리즘 작동원리 이해의 어려움(❌)

📍개인정보 비식별화 기술

데이터 마스킹은 **이렇게 변경시키는 거고
가명처리는 아예 다른 이름으로 대체시키는 것!!!!

독자의 전자책 독서 순서 정보가 저자의

과목 2. 데이터 분석 기획

📍분석 기회 발굴의 범위 중 시장니즈 탐색 관점에서 '고객니즈의 변화'에 해당하는 것?

고객
채널
영향자들

틀린 선지 : 대체제(❌)
대체제는 고객니즈의 변화가 아니라 경쟁자 확대 관점이지!!!!

📍분석 프로젝트 영역별 주요관리항목?

품질
시간
자원
+) 범위, 원가, 통합, 조달, 리스트, 의사소통, 이해관계자

틀린 선지 : 가격 (❌) 3V, 4V 아닙니다~ 관련없어요~ 프로젝트에서 관리해야하는 항목입니다.

📍분석 프로젝트 관리

분석 프로젝트 일정계획 수립 시 데이터 수집에 대한 철저한 통제와 관리가 필요 (❌)하다
➡️ 일정 계획 수립할 때 분석범위가 빈번하게 변경되니까 통제하면 안됨!!! Time Boxing 기법과 같은 방법으로 일정관리하는게 중요

📍상향식 vs 하향식 접근방식

상향식 접근방식 - 'what' 관점 : 사물을 있는 그대로 인식하면서 접근!!!!!
- 인사이트를 도출한 후 반복적인 시행착오를 통해서 수정하며 문제를 도출하는 일련의 과정
하향식 접근방식 - 'why' 관점 : 주제 하나 잡고 왜그럴까~ 문제 해결방식인 하향식 접근방식

📍데이터 거버넌스의 구성요소

원칙
조직
절차 = 프로세스
분석방법 (❌)

과목 3. 데이터 분석

📍안정 시계열

안정적 시계열은 시간의 추이와 관계 없이 평균, 분산이 불변하여, 변화했다고 해도 다시 평균으로 회귀하는 경향을 보인다.

- 현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향을 미치지 못함
- 어느 시기에 충격이 발생하여 y값이 평균 이하로 감소하면
미래의 어느 기간에 걸쳐서 y의 증가율이 일시적으로 평균 수준보다더 높아야 y의 평균수준을 회복하며
현재의 충격이 무한 미래의 y에 미치는 영향이 소멸됨

📍R에서 사용가능한 데이터 오브젝트

리스트에서 원소들은 다른 모드여도 상관없다. (O)
벡터에서 모든 원소는 같은 모드여야한다. (O)
데이터 프레임은 테이블로된 데이터구조로서 행렬(❌)로 표현된다. ➡️ 행렬이 아니라 리스트 구조(O)로 구현이제!!!

📍모분산의 추론에 대한 설명

이표본에 의한 분산비 검정은 두표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F-분포를 따른다.
모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.

틀린 선지 : 평균 모집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 t분포(❌)를 따른다.
▶️ 표본의 분산은 카이제곱 분포를 따른다!!!!!!!

📍주성분 분석

주성분 분석 : 분산을 최대화하는 차원을 찾는 방법
공분산 행렬에서 고윳값(변수의 중요도 기준)을 통해 찾을 수 있다.!!

📍회귀모형 안정성 평가 - 개체 영향력 진단

영향력 진단 : 적합된 회귀모형의 안정성을 평가하기 위한 통계적 방법
안정성이 약하다 = 자료에서 특정 관측치가 제외됨에 따라 분석결과의 주요 부분에 많은 변동이 있다면 안정성이 약하다고 판단
영향점 : 비교할 대상이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀 계수 추정값을 변화시키는 관측개체
쿡의 거리 : 관측개체 하나가 제외되었을 때 최소제곱추정치 벡터의 변화를 표준화한 측도
DFFITS (Difference in fits) : 절댓값이 공식에 대입한 값보다 큰 값이 나타나야 높은 영향력으로 간주함
- 틀린 선지 : 절댓값이 매우 큰(❌) 관측개체는 y의 예측에 영향력이 크다고 간주(❌)

📍다중회귀분석을 위해 사용되는 변수선택방법

전진선택법은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다.

틀린 선지 : 최적선택법(❌)은 전진선택법과 후진제거법을 결합한 방법으로 회귀식이 최적의 변수를 선택하도록 하는 방법이다.
▶️ 다중회귀분석에서 변수선택법은 전진선택법, 후진제거법, 단계적 선택법이 있다.

📍상자그림을 이용해 이상치를 판정하는 방법

이상치는 변수의 분포에서 벗어난 값(O)으로 상자그림을 통해 확인할 수 있다.

틀린 선지 : 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거(❌)한다.
▶️ 이상치라고 규정한 자료는 분석에서 제외는 할 수 있지만, 무조건적으로 제거할 수는 없어!!!!

📍연속형 확률분포

균일분포, 균등분포
지수분포
정규분포
t분포 (평균이 동일한지)
F분포 (분산의 동일성 검정)
X^2 카이제곱 분포 (두집단의 동질성 검정, 표본의 분산)
이항분포 ➡️ 이산형 확률변수 (+베르누이 확률분포, 이항분포, 기하분포, 초기하분포, 다항분포, 포아송분포)

📍비모수검정 : 모집단의 분포에 아무제약 가하지 않고 검정실시하는 방법

관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
또, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우 이용
부호검정, 윌콕슨의 순위합검정, 맨-휘트니의 U검정,런 검정, 스피어만의 순위상관계수
자기상관검정 (❌)

↔ 모수검정 : 관측된 자료로 구한 표본평균과 표본분산등을 이용해 검정을 실시하는 것

📍종속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은?

표준화 자료로 추정한 계수가 가장 큰 변수 (O)
➡️ 추정한 계수가 클수록 종속변수에 영향을 가장 많이 미치게 된다.
➡️ 특히 베타0이 없는 표준화된 추정식을 만들게 되면 각 계수의 크기를 더욱 정확히 알 수 있게 된다.

📍비계층적 군집분석의 장점

주어진 데이터의 내부구조에 대한 사전정보가 없어도 의미있는 결과를 얻을 수 있다
다양한 형태의 데이터의 적용이 가능하다
분석방법의 적용이 용이하다
사전에 주어진 목적이 없으므로 결과해석이 어렵다

📍ROC ( Receive Operating Characteristics)

모형의 성능을 평가할 때 사용되는 방법론 중 사후확률과 각 분류 기준값에 의해 오분류행렬을 만든 다음,
민감도와 특이도를 산출하여 도표에 도식화하여 평가하는 방식
(x축은 1-특이도로 y축은 민감도로 설정하여 그려지는 모형을 평가하는 지표)

📍민감도 / 정확도 / 특이도 구하는 방법

민감도 : 양성이라고 판단되는 값(TP) / 실제 양성의 값(TP+FN)
정확도 : 양성, 음성이라고 판단되는 값(TP+TN) / 실제 양성과 음성의 값(TP+FN+FP+TN)
특이도 : 음성이라고 판단되는 값(TN) / 실제 음성의 값(FP+TN)
지지도 : 전체 거래 품목중 품목 A와 품목 B를 동시에 포함하는 거래의 비율
- P(A ∩ B)
향상도 : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가비율
신뢰도 : 항목 A를 포함한 거래 중에서 항목 와 B가 같이 포함될 확률은 어느정도인가 나타내주는 연관성의 정도

📍마할라노비스 거리

계층적 군집방법 : 두 개체 간의 거리(비유사성)에 기반하여 군집을 형성해나가므로 거리에 대한 정의가 필요한데
마할라노비스 거리 : 변수의 표준화와 변수간의 상관성을 동시에 고려한 통계적 거리
민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
맨하탄 거리 : 절댓값으로 빼고 더해

📍로지스틱 회귀분석

로지스틱 회귀분석
- 독립변수의 선형결합을 이용하여 사건의 발생가능성을 예측하는데 사용되는 통계기법
- 반응변수가ㅓ 범주형인 경우에 적용
로지스틱 회귀분석의 모형 검정방법 : 카이제곱 검정!!!

📍비지도 신경망 SOM

고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
경쟁층 : 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층

주관식 문제

📍마스킹 (Masking)

개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는
데이터 변환방법

📍분석 유즈 케이스

풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써
향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것

📍데이터 무결성 (Integrity)

데이터 베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해
데이터 변경 혹은 수정 시 여러가지 제한을 두어 정확성을 보증하는 것

📍분석 준비도 6개의 영역 중 2가지 적어라

분석업무
분석 인력/조직
분석기법
분석 데이터
분석 문화
분석 인프라

📍데이터 거버넌스 (마데 / 메데 / 데사)

데이터 거버넌스란 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.
특히 마스터데이터, 메타데이터, 데이터 사전은 데이터 거번스의 중요한 관리 대상이다.

📍비즈니스 모델 캔버스

9가지 블록을 단순화 하여 업무, 제품, 고객 단위로 문제를 발굴하고
이를 관리하는 규제와 감사, 지원 인프라 영역으로 나눠 분석기회를 도출한다.

📍머신 러닝

- 데이터의 패턴을 발견하고 데이터 모델의 매개변수를 자동으로 학습한다.
- 자체 알고리즘을 사용하여 시간이 경과함에 따라서 경험을 축적하면서 작업성능이 향상된다.

📍회귀 나무

의사결정나무 중에서 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무
~~(나무는 나무인데, 예측하는거니까 회귀나무)~~

📍랜덤 포레스트

데이터 마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로
랜덤한 forest에는 많은 트리들이 생성된다.
새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 R 패키지

📍앙상블 기법

이상값에 대한 대응력이 높아진다.
전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다.
모형의 투명성이 떨어져 원인분석에는 적합하지 않다.
각 모형의 상호 연관성이 높을수록 정확도가 향상된다. (❌) ➡️ 아니? 오히려 상호연관성 높으면 정확도 떨어짐

다수 모델의 예측을 관리하고 조합하는 기술을 메타학습이라 한다.
여러 분류기(classfier)들의 예측을 조합해봄으로써 분류정확성을 향상시키는 기법

'📝 자격증 > ADsP : 데이터분석 준전문가' 카테고리의 다른 글

[ADsP] 자격증 합격 🎉 (0)	2023.11.19
[ADsP 3과목 : 데이터 분석 - 4장 통계분석] 요점 정리 및 오답노트 (1)	2023.10.17
[ADsP 2과목 : 데이터 분석 기획] 오답 노트 (0)	2023.09.30
[ADsP 2과목 : 데이터 분석 기획] 요점 정리 (0)	2023.09.30
[ADsP 1과목 : 데이터 이해] 요점 정리 및 오답 노트 (0)	2023.09.23

[ADsP] 모의고사 및 기출문제 오답노트

과목 1. 데이터의 이해

📍데이터베이스의 특징?

📍데이터 사이언티스트에게 요구되는 소프트 역량?

📍빅데이터 가치 산정 어려운 이유 (사례)

📍개인정보 비식별화 기술

과목 2. 데이터 분석 기획

📍분석 기회 발굴의 범위 중 시장니즈 탐색 관점에서 '고객니즈의 변화'에 해당하는 것?

📍분석 프로젝트 영역별 주요관리항목?

📍분석 프로젝트 관리

📍상향식 vs 하향식 접근방식

📍데이터 거버넌스의 구성요소

과목 3. 데이터 분석

📍안정 시계열

📍R에서 사용가능한 데이터 오브젝트

📍모분산의 추론에 대한 설명

📍주성분 분석

📍회귀모형 안정성 평가 - 개체 영향력 진단

📍다중회귀분석을 위해 사용되는 변수선택방법

📍상자그림을 이용해 이상치를 판정하는 방법

📍연속형 확률분포

📍비모수검정 : 모집단의 분포에 아무제약 가하지 않고 검정실시하는 방법

📍종속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은?

📍비계층적 군집분석의 장점

📍ROC ( Receive Operating Characteristics)

📍민감도 / 정확도 / 특이도 구하는 방법

📍마할라노비스 거리

📍로지스틱 회귀분석

📍비지도 신경망 SOM

주관식 문제

📍마스킹 (Masking)

📍분석 유즈 케이스

📍데이터 무결성 (Integrity)

📍분석 준비도 6개의 영역 중 2가지 적어라

📍데이터 거버넌스 (마데 / 메데 / 데사)

📍비즈니스 모델 캔버스

📍머신 러닝

📍회귀 나무

📍랜덤 포레스트

📍앙상블 기법

'📝 자격증 > ADsP : 데이터분석 준전문가' 카테고리의 다른 글

관련글

티스토리툴바

📍분석 프로젝트 영역별 주요관리항목?

📍안정 시계열

📍연속형 확률분포

📍비모수검정 : 모집단의 분포에 아무제약 가하지 않고 검정실시하는 방법

📍비계층적 군집분석의 장점

📍민감도 / 정확도 / 특이도 구하는 방법

📍비지도 신경망 SOM

📍마스킹 (Masking)

📍분석 유즈 케이스

📍데이터 무결성 (Integrity)

📍분석 준비도 6개의 영역 중 2가지 적어라

📍데이터 거버넌스 (마데 / 메데 / 데사)

📍비즈니스 모델 캔버스

📍머신 러닝

📍회귀 나무

📍랜덤 포레스트

📍앙상블 기법