📍3장 데이터분석
▶️ 4장 통계분석 : 통계분석의 이해, 기초 통계 분석, 회귀분석, 시계열 분석, 다차언 척도법, 주성분 분석
3-4-1. 통계분석의 이해
① 통계
② 통계 자료의 획득 방법
- 총조사/전수 조사 Census
- 표본 조사 Sampling
- 모집단 : 조사하고자 하는 대상 집단 전체
- 원소 : 모집단을 구성하는 개체
- 표본 : 조사하기 위해 추출한 모집단의 일부원소
- 모수 : 모집단에 대한 정보
- 오차 관련 용어 정리
- 포본오차 : 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차
- 비표본오차 : 표본오차를 제외한 조사의 전체과정에서 발생할 수 있는 모든 오차
- 조사과정에서 발생하는 모든 부주의나 실수, 알수없는 원인 등 모든 오차 의미
- 조사대상이 증가하면 오차가 커짐 ㅇㅇ
- 표본 편의 ★ : 표본추출방법에서 기인하는 오차, 표본추출이 의도된 모집단의 일부 구성원이 다른 구성원보다 더 낮거나 더 높은 표본 추출 확률을 갖는 오차
- 확률화(Randomization)에 의해 최소화하거나 없앨 수 있지,
모형추론방법으로 최소화하는거 아님xxxx!!!!
- 확률화(Randomization)에 의해 최소화하거나 없앨 수 있지,
- 표본 추출 방법
- 단순랜덤 추출법 Simple random sampling : 각 샘플에 번호 부여하고 임의의 n개 추출하는 방법, 선택될 확률 동일
- 계통 추출법 Systematic sampling) : 번호를 부여한 샘플을 나열해 K개씩 n개의 구역으로 나누고, 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본 선택, 임의의 위치에서 매 k번째 항목 추출

- 집락 추출법 Cluster random sampling : 군집을 구분하고 군집별로 단순랜덤 추출 수행하고 모든자료를 활용하거나 샘플링

- 층화추출법 Stratified Random Sampling

- 측정방법
- 명목척도 : 질적척도 (크기계산x) - 측정 대상이 어느 집단에 속하냐
- 순서척도 : 질적척도 (크기계산x) - 측정 대상의 서열관계 따져
- 구간척도(등간척도) : 양적척도 (쁠마 O) - 구간사이의 간격이 의미있음 (온도, 지수)
- 비율척도 : 양적척도 (사칙연산 O) - 차이에 대한 비율이 의미있음, 절대적 0존재, 가장 많은 정보를 가지는 척도(무게, 나이, 시간, 거리)
③ 통계분석
- 정의 : 불확실한 현상을 대상으로 자료를 수집해 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
- 기술통계 : 수량화 - 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도
- 통계적 추론 : 표본을 가지고 모집단을 추정
- 모수추정 : 표본집단으로 모집단 특성인 모수를 분석해 모집단 추론
- 가설검정 : 가설이 옳은지 그른지 채택여부 결정
- 예측 : 미래의 불확실성 해결해 효율적인 의사결정
④ 확률 및 확률분포
- 확률
- 표본공간 : 어떤 실험할때 나타날 수 있는 모든결과들의 집합
- 사건 : 관찰자가 관심있는 사건, 표본공간의 부분집합
- 원소 : 나타날 수 있는 개별의 결과들
- 확률변수 : 정의역이 표본공간, 치역이 실수값0<y<1 값을 갖는 함수
- 확률의 구분
- 수학적 확률 : 사건 A가 일어나는 경우의 수 / 일어날 수 있는 모든 경우의 수 = P(A)
- 통계적 확률 : 사건 A가 일어날 확률, n번의 반복시행에서 사건A가 일어난 횟수 r, 상대도수 r/n은 n이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다.
- 확률 분포
- 이산형 확률변수 : 확률변수 셀 수 있는 (확률질량함수)
- 베르누이 확률분포 : 결과가 2개만 나오는 경우, 안타 치거나 안치거나
- 이항분포 : 5번 타석에 들어와 (반복)했을때 3번 안타칠 확률
- 기하분포 : 성공확률p인 첫번째 성공이 있을때까지 x번 실패할 확률
- 다항분포 : 이항분포의 확장버전, 세가지 이상의 결과를 가지는 반복시행
- 포아송분포 : 최근 5경기에서 10개의 홈런을 때렸고, 오늘 경기에서 홈런을 못칠 확률 (시간과 공간내에서 발생하는 사건의 발생횟수에 대한 확률분포)
- 초기하 분포
- 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 (확률밀도함수)
- 균일분포(일양분포) : 균일한 확률, 다트의 확률분포
- 정규분포 : 평균이 u이고 표준편차가 σ인 확률밀도 함수
- 지수 분포 : 어떤 사건이 발생할때까지 경과시간에 대한 연속확률분포
- t-분포 : 두 집단의 평균이 동일한지
- χ 2 카이제곱 : 두 집단의 동질성 검정에 활용
- 표본의 분산은 카이제곱 분포를 따른다!!!
- F-분포 : 두 집단 간 분산의 동일성 검정에 사용
- 이산형 확률변수 : 확률변수 셀 수 있는 (확률질량함수)
⑤ 추정과 가설검정
- 추정의 개요
- 확률표본
- 추정
- 점추정 : 모수가 특정한 값일 것 추정 (평균, 중위수, 최빈값 사용)
- 구간추정 : 모수가 특정한 구간에 있을 것 (분포 전제, 신뢰수준 주어져야함)
- 신뢰수준 95%의 의미 : 모수가 신뢰구간 내에 존재할 확률이 95%라는 것
- 귀무가설 : 비교하는 값과 차이가 없다, 동일하다를 기본개념으로 하는 가설
- 독립변수의 기울기(회귀계수)가 0이라는 가정
- 대립가설 : 뚜렷한 증거가 있을 때 주장하는 가설
- 독립변수의 기울기(회귀계수)가 0이 아니라는 가정
- 검정통계량 : 표본으로부터 구하는 통계량, 가설의 진위판단기준
- 유의 수준 : 귀무가설을 기각하게 되는 확률의 크기가설 검정 : 귀무가설이 옳다는 전제 하에 검정통계량 값을 구하고, 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택 여부를 결정
- 기각역 : 귀무가설이 옳다는 전제하에 검정통계량의 분포에서 확률이 유의수준 α인 부분
- 제 1종 오류(α) : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류 (O → X)
- p-value : 우리가 내린 판정이 잘못되었을 실제 확률
- 귀무가설이 사실인데도 불구하고, 사실이 아니라고 판정할 때 실제 확률
- 제 2종 오류(β) : 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류 (X → O)
- 제 1종 오류(α) : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류 (O → X)

⑥ 비모수검정
- 모수적 방법 : 모집단의 분포에 대한 가정을 하고 그 가정 하에서 검정통계량 분포 유도해 검정
- 비모수적 방법 : 자료가 추출된 모집단의 분포에 아주 제약을 가하지 않고 검정 실시
- 관측된 자료가 어떤 분포를 따른다고 가정할 수 없는 경우
- 관측된 자료의 수가 30개 미만으로 작거나 자료가 개체간의 서열관계를 나타내는 경우 이용함
- ex. 부호검정, 윌콘슨의 순위합검정, 맨-휘트니의 U검정, 런검정, 스피어만의 순위상관계수
- 모수적 검정과 비모수검정의 차이점
| 모수적 검정 | 비모수 검정 | |
| 가설 설정 | 가정된 분포의 모수에 대해 가설 설정 | 가정된 분포 X 단지 분포의 형태가 동일하다, 동일하지 않다와 같이 분포의 형태에 대해 설정 |
| 검정 방법 | 관측된 자료를 이용해 구한 표본평균과 표본분산을 이용해 검정 실시 |
관측값의 절대적 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호를 이용해 검정 |
3-4-2. 기초 통계분석
① 기술 통계
통계량에 의한 자료 정리
- 중심 위치의 측도
- 자료, 표본평균, 중앙값
- 산포의 측도
- 분산, 표준편차, 사분위수 범위, 사분위수, 백분위수, 변동계수, 표본평균의 표준오차
- 분포의 형태에 관한 측도
- 왜도(오른쪽으로 긴 꼬리>0, 비대칭성), 첨도(뾰족한 정도>0)
그래프를 이용한 자료 정리
- 히스토그램 : 도수분포표 (연속형으로 표시된 데이터)(순서 임의로 바꿀 수 없음)
- 히스토그램은 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못함
- 막대그래프 : 범주형으로 구분된 데이터 (범주의 순서 의도적으로 바꿀 수 있음)
- 줄기-잎 그림
- 줄기잎그림의 계산량은 많지 않다.
- 상자그림 : 사분위수 범위, 안울타리, 바깥 울타리, 보통이상점, 극단이상점
- IQR : Q3-Q1
- 사분위 수를 이용하여 1.5*IQR로 이상값을 판단하는 하한선&상한선 구할 수 있음
- (Q1-1.5*IQR, Q3+1.5*IQR)

② 인과관계의 이해
용어
- 종속변수 (반응변수, y) : 다른변수의 영향을 받는 변수
- 독립변수 (설명변수, x) : 영향을 주는 변수
- 산점도 : 좌표평면 위에 점들로 표현한 그래프
- 두 변수사이에 선형관계(직선)가 성립하는지
- 함수관계(직선 혹은 곡선)성립하는지
- 이상값이 존재하는지
- 몇개의 집단으로 구분되는지
공분산 Covariance
- 두 확률변수 X, Y의 방향의 조합 (선형성)
- 공분산의 부호만으로 두 변수 간의 방향성을 확인 가능
- + : 두 변수는 양의 방향성, - : 음의 방향성
- 두 변수가 독립이면 cov(X,Y) = 0
③ 상관분석의 정의
- 두 변수 간의 관계의 정도를 알아보기 위해 상관계수를 이용
- 두 변수간의 관계의 정도를 알아보는 거지, 상관분석으로 인과관계는 알 수 없다
상관분석의 유형
- 피어슨
- 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식
- 연속형 변수, 정규성 가정, 대부분 많이 사용
- 피어슨 r 적률상관계수
- 스피어만
- 서열척도인 두 변수들의 상관관계 측정 방식
- 순서형 변수, 비모수적 방법, 순위를 기준으로 상관관계 측정
- 순위상관계수 로우 p같이 생긴거
- 스피어만 상관계수는 연속형 변수를 순위로 변환시킨 후 두 순위 사이의 피어슨 상관계수로 정의된다
3-4-3. 회귀분석
① 회귀분석의 개요
- 정의
- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법
- 독립변수의 개수가 하나 → 단순선형회귀분석 // 독립변수가 두개이상 → 다중선형회귀분석
- 회귀분석의 변수
- 영향을 주는 변수 x : 설명변수, 독립변수, 예측변수
- 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수
- 선형회귀분석의 가정
- 선형성 : 입력변수와 출력변수의 관계가 선형이다
- 등분산성 : 오차의 분산이 입력변수와 무관하게 일정, 잔차플롯 활용 무작위 고루 분포
- 독립성 : 입력변수와 오차는 관련이 없다. 시계열 데이터에서 durbin-waston 통계량
- 비상관성 : 오차들끼리 상관없음
- 정상성(정규성) : 오차의 분포가 정규분포를 따름 Q-Q plot, shaprio-wilk 검정(+히스토그램)을 활용해 정규성 확인, 잔차가 대각방향의 형태
- 가설 검증
- 단순선형회귀분석 : 산점도 확인
- 다중선형회귀분석 : 선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인해야 함
② 단순선형 회귀분석
- 회귀분석에서 검토사항
- 회귀계수들이 유의미한가 : 해당 계수의 t통계량 < 0.05
- 모형이 얼마나 설명력을 갖는가 : 결정계수 R²을 확인, 1에 가깝고 높을수록 설명력↑
- 단순회귀분석에서 결정계수는 상관계수r의 제곱과 같음
- 전체 데이터를 회귀모형이 얼마나 설명할 수 있는지
- 독립변수가 종속변수 변동의 몇%를 설명하는지 나타낸 지표
- 다변량 회귀분석에서는 유의하든 아니든 독립변수의 수가 많아지면 결정계수가 높아지는 단점 있음 → 수정된 결정계수 활용
- 결정계수는 총 변동중 회귀모형에 의해 설명되는 변동이 차지하는 비율
- R^2 = 회귀제곱합 SSR / 총 제곱합 SST
- 모형이 데이터를 잘 적합하고 있는가 : 잔차를 그래프로 그리고 회귀진단
- 회귀계수의 추정(최소제곱법, 최소자승법)
- 측정값 기초로 적당한 제곱합을 만들로 그걸 최소로하는 값을 구해 처리.
- 잔차제곱이 가장 작은 선을 구하는 것을 의미
- 회귀계수 추정치는 보통 제곱오차를 최소로하는 값이고, 이와 같이 구해진 회귀계수 추정량을 "최소제곱"이라고 한다.

③ 다중선형 회귀분석
- 모형의 통계적 유의성
- F-통계량으로 확인
- 유의수준 5%하에서 F-통계량의 p값<0.05 보다 작으면 추정된 회귀식은 통계적으로 유의
- F-통계량 ⬆️ p-value가 0.05보다 작아짐 ⇒ 귀무가설 기각 ⇒ 모형 유의하다
- 회귀계수의 유의성
- t-통계량을 통해 확인
- 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형 활용 가능
- 모형의 설명력
- 결정계수 or 수정된 결정계수 확인
- 다중공선성 : 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란해짐
- 다중공선성 검사방법
- 분산팽창요인 : 4보다 크면 다중공선성 존재, 10보다 크면 심각한 문제
- 상태지수 : 10이상이면 문제, 30보다 크면 심각한 문제
- 다중공선성 문제가 발생하면 문제가 있는 변수 제거하거나, 주성분회귀, 능형회귀 모형 적용해 문제를 해결함
- 다중공선성 검사방법
④ 회귀분석의 종류
- 단순 회귀 : 독립변수 1개, 종속변수와의 관계가 직선
- 다중회귀 : 독립변수 k개, 종속변수와의 관계가 선형 (1차함수)
- 로지스틱 회귀 : 종속변수=범주형(2진변수)인 경우
- 다항회귀 : 독립변수와 종속변수와의 관계가 1차함수 이상인 관계
- 곡선회귀 : 독립변수가 1개, 종속변수와의 관계가 곡선
- 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져있지 않은 모형
⑤ 최적회귀방정식
최적회귀방정식의 선택
- 설명변수 선택 : 가능한 범위 내에서 적은 수의 설명변수를 포함, 필요한 변수만 타협
- 모형선택 : 분석 데이터에 잘맞는 모형 찾아내기, 모든 가능한 조합의 회귀분석 생성
- 단계적 변수 선택
- 전진 선택법 : 절편만 있는 상수모형에서 시작해 차례로 추가
- 후진 제거법 : 독립변수 후보 모두 포함한 모형에서 시작해 가장 적은 영향변수부터 하나씩 제거
- 단계 선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 제거하는 등 추가/제거를 반복하다가 더이상 추가/제거 없을 때 중단
벌점화된 선택기준
- 모형의 복잡도에 벌점을 주는 방법 (AIC, BIC + RIC, CIC, DIC)
- 모든 후보 모형에 대해 계산해보고, 그 값이 최소가 되는 모형을 선택
- 모형선택의 일치성 : 자료의 수가 늘어날때 참인 모형이 주어진 모형선택 기준의 최소값을 갖게되는 성질
최적회귀방정식의 사례
- 변수 선택법 예제 (유의확률 기반)
- 변수 선택법 예제 (유의확률 기반)
3-4-4. 시계열 분석
* 시간 그래프 그리기 → 추세와 계절성을 제거하기 → 잔차를 예측하기 → 잔차에 대한 모델 적합하기 → 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기
① 시계열 자료
- 시계열 자료 : 시간의 흐름에 따라 관찰된 값 ⇒ 미래를 예측하고 경향, 주기, 계절성 파악
- 비정상성 시계열 자료 : 다루기 어려운 자료, 대부분
- 정상성 시계열 자료 : 비정상을 핸들링해 다루기 쉬운 자료로 변환
② 정상성 = 분산이 시점에 의존하지 않는다는 것.
* 정상성 = 시계열의 수준과 분산에 체게적인 변화가 없고, 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어
- 평균이 일정할 때 : 모든 시점에 대해 일정한 평균 // 그렇지않다면 차분을 통해 정상화
- 차분 : 현시점 자료에서 전시점 자료를 빼는 것 (일반차분, 계절차분)
- 분산이 일정할 때 : 시점에 의존하지 않고 일정 // 그렇지않다면 변환을 통해 정상화
- 공분산도 단지 시차에만 의존하고, 실제 특정시점 t,s에는 의존하지 않을때 만족
③ 시계열자료 분석방법
- 수학적 이론 모형
- 회귀분석(계량경제) 방법
- Box-Jenkins 방법(ARMA)
- 직관적 방법 : 시간에 따른 변동이 느린 데이터 분석에 활용
- 지수 평활법
- 시계열 분해법
- 장기 예측 : 회귀분석 방법 활용
- 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용
자료 형태에 따른 분석 방법
- 일변량 시계열 분석 : 시간을 설명변수로 한 하나의 변수에 관심을 갖는 경우
- 회귀모형주가, 소매물가지수 등
- Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법
- 다중 시계열 분석 : 여러개의 시간에 따른 변수들을 활용
- 계량 경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA
이동평균법
- 과거로부터 현재까지의 시계열 자료 → 일정 기간별 이동평균을 계산하고 이들의 추세를 파악해서 다음 기간을 예측하는 방법
- 계절 변동과 불규칙 변동을 제거해 추세변동과 순환변동(경제적이나 자연적인 이유없이 알려지지 않은 주기를 가지고 변화하는 자료)만 가진 시계열로 변환하는 방법
- 특징
- 간단하고 쉽게 미래 예측 가능, 자료 수많고 안정적인 패턴이면 예측 품질 높음
- 특정기간안에 속하는 시계열은 동일한 가중치 부열
- 불규칙 변동 작으면 ➡️ 짧은 기간의 평균을 사용, 불규칙변동 크면 ➡️ 긴 기간의 평균 사용
- 여기서 가장 중요한건 적절한 기간 m의 개수를 결정하는 것
지수평활법
- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 이용해 평균을 구함
- 시간의 흐름에 따라 최근 시계열에 더 많은 가중치 부여해 미래 예측 (=지수평활계수는 과거로 갈수록 감소함)
- 특징
- 단기간에 발생하는 불규칙 변동을 평활시킴
- 지수평활법에서 지수 평활계수 알파가 가중치의 역할을 함
- 불규칙 변동 작으면 ➡️ 큰 값의 지수평활계수 사용, 불규칙변동 크면 ➡️ 작은 지수 평활계수 적용
- 예측오차를 비교해서 가장 작은 걸 선택하는게 바람직
- 불규칙 변동의 영향을 제거하는데 효과가 있으며 중기 예측 이상에 주로 사용됨
④ 시계열 모형
- 자기회귀모형 (AR모형, Autoregressive Model)
- p시점 전의 자료가 현재 자료에 영향을 주는 모형
* 자기 회귀 모형
1. 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
2. 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상확률모형
3. 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상시계열 모형에서는 주로 1,2차를 사용함
- 이동평균 모형 (MA모형, Moving Average Model)
- 자기회귀누적 이동평균 모형 (ARIMA 모형)
- 정상성 시계열에 한해 사용
- 비정상 시계열 모형, 차분이나 변환을 통해 AR, MA모형 혹은 이 둘을 합친 ARIMA모형으로 정상화 가능
- 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀분석적인 방법 주로 사용
3-4-5. 다차원척도법
① 다차원 척도법 (Multidimensional Scaling)
- 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상(2차원 또는 3차원)에 점으로 표현하는 방법
② 다차원척도법 목적
- 데이터에 속에 잠재해 있던 패턴, 구조를 찾아냄
- 관측 대상들의 상대적 거리의 정확도를 높이기 위해 적합정도를 스트레스 값(Stress Value)으로 나타냄
- 각 개체들을 공간상에 표현하기 위한 방법 : 부적합도 기준으로 Stress, S-Stress사용
- 0 : 적합도 수준 완벽
- 0.15 이상 : 적합도 수준 나쁨
- 그 구조를 소수차원의 공간에 기하학적으로 표현
- 데이터 축소의 목적으로 다차원 척도법을 이용
③ 다차원척도법 방법
- 개체들의 거리 계산 : 유클리드 거리행렬을 활용
- 최적 모형의 적합은 부적합도를 최소로 하는 반복 알고리즘을 이용하고 그 값이 일정수준 이하가 될 때 최종적으로 적합된 모형을 제시함
④ 다차원척도법 종류
- 계량적 MDS (Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 활용, 전통적인 방법
- cmdscale 사례
- 비계량적 MDS (Nonmetric MDS)
- 데이터가 순서척도인 경우 활용, 개체들간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환한 후 거리 생성해 적용
- isoMDS 사례, sammon 사례
3-4-6. 주성분 분석
① 주성분 분석 (Principal Component Analysis)
- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 첫번째 주성분 : 전체 변동을 가장 많이 설명할 수 있도록
- 두번째 주성분 : 첫번째 주성분과는 상관성이 없어서 첫번째가 다 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.
② 주성분 분석의 목적
- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해줌
- 다중 공선성이 존재하는 경우 ⇒ 상관성이 없는 주성분으로 변수를 축소하여 모형개발에 활용됨
- 연관성이 높은 변수를 주성분 분석으로 차원 축소한 후에 군집분석을 수행하면 ⇒ 군집화 결과와 연산속도 개선 가능
- 기계 센서데이터를 주성분분석으로 차원축소한 후에 시계열 분석하면 기계의 고장 징후를 사전에 파악하는데 활용되기도함
- +) 다변량 자료를 저차원의 그래프로 표시하여 이상치 탐색에 사용한다
③ 주성분 분석 vs 요인분석
- 요인 분석 : 등간척도 혹은 비율척도로 측정한 두개 이상의 변수들에 잠재되어있는 공통인자를 찾아내는 기법
- 공통점 : 모두 데이터를 축소하는데 활용됨, 원래데이터로 몇개의 새로운 변수 만들 수 있음
- 차이점
- 생성된 변수의 수
- 요인분석은 몇개 지정없이 2,3,4,5,... 만들 수 있지만
- 주성분 분석은 대개 4개 이상 넘지 않음
- 생성된 변수의 이름
- 요인분석은 분석자가 요인의 이름을 직접 명명함
- 주성분분석은 주로 제1주성분, 제2주성분으로 표현됨
- 생성된 변수들 간의 관계
- 요인분석은 새변수들이 기본적으로 대등한 관계, 어떤게 더 중요하다는 의미가 없고, 분류/예측에 그 다음 단계로 사용될때서야 중요성 의미 부여됨
- 주성분분석은 제1주성분이 가장중요 > 제2주성분이 그 다음 중요
- 분석방법의 의미
- 요인분석은 목표변수 고려하지 않음. 걍 데이터 주어지면 비슷한 성격으로 묶어서 새로운 잠재 변수를 만듬
- 주성분 분석은 목표변수를 고려해 목표변수를 잘 예측/분류하기 위해 원래 변수들의 선형결합으로 이루어진 몇개의 주성분을 찾아냄
- 생성된 변수의 수
④ 주성분의 선택법 : 주성분 개수 선택 방법
- 누적기여율 : 85%이상이면 주성분의 수로 결정
- Scree Plot : 고윳값이 수평을 유지하기 전단계로 주성분의 수 선택
- 평균 고윳값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 제거하는것이 아니라 설정하는 것이다
- 총 분산 비율과 고윳값이 수평이 유지하기 전단계로, 주성분의 수를 선택
- 총 분산의 비율은 주성분 분석 결과에서 확인 가능
⑤ 주성분 분석 사례
* df = degree of freedom 자유도
* 자유도 = 관측치-1
* 매우 큰수(양수 또는 음수)를 부동소수점으로 표현할때는 E혹은 e를 이용하여 숫자에 지수를 추가할 수 있다.
* 지수가 있는 숫자 값은 E앞에 있는 숫자에 10을 지수번만큼 곱한 것.
* 지수가 음수면 그 수만큼 왼쪽으로 이동 시킴돼
ex. 1.759e-01 ➡️ 0.1579
ex. 1.775e-02 ➡️ 0.01775
* 제 3사분위수 이상은 전체 변수의 25% 임
* 단순 로지스틱회귀모형에서 exp()의 의미는 x1, x2, x3 ~~~, xk가 주어질 때 x1이 한 단위 증가할 때마다 성공(y=1)의 오즈 or 승산이 몇배 증가하는지 나타내는 값
'📝 자격증 > ADsP : 데이터분석 준전문가' 카테고리의 다른 글
| [ADsP] 자격증 합격 🎉 (0) | 2023.11.19 |
|---|---|
| [ADsP] 모의고사 및 기출문제 오답노트 (0) | 2023.10.21 |
| [ADsP 2과목 : 데이터 분석 기획] 오답 노트 (0) | 2023.09.30 |
| [ADsP 2과목 : 데이터 분석 기획] 요점 정리 (0) | 2023.09.30 |
| [ADsP 1과목 : 데이터 이해] 요점 정리 및 오답 노트 (0) | 2023.09.23 |