본문 바로가기
📝 자격증/빅데이터 분석기사

[2과목] 빅데이터 탐색 필기+기출정리

by b5ingbo2ng 2024. 3. 30.

📍Chapter 01 데이터 전처리

[데이터의 종류]

  • 질적자료 (=정성적 자료, 범주형 자료), 편의상 부여된 수치, 크기자체는 의미 부여 X
    • 명목자료 : 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료
      • 전화번호 국번, 지역변호 = ≠
    • 서열자료 : 수치나 기호가 서열을 나타내는 자료
      • 기록순위 = ≠ ≧ ≦
  • 수치자료 (=정량적 자료, 연속형 자료), 숫자의 크기에 의미를 부여할 수 있는 자료
    • 구간자료 : 명목자료, 서열자료의 의미를 포함하면서 숫자의 관계가 산술적인 의미를 가짐
      • 온도, 비율로 의미가 부여 안됨!!!! = ≠ ≧ ≦ + -
    • 비율자료 : 명목자료, 서열자료, 구간자료의 의미를 다가지는 자료, 수치화+비율의 개념 도입 O
      • 무게 = ≠ ≧ ≦ +-x÷
  • 횡적자료 : 한개의 시점에서 여러대상으로부터 자료 취합
  • 종적자료 : 시계열자료 + 횡적자료, 여러개체를 여러시점에서 수집한 자료

 

[데이터 정제 순서]

  • 데이터 수집
  • 원하는 형태로 변환
    • 비정형➡️정형데이터로 변환&구조화
    • 결측치 처리•이상치처리•노이즈처리
    • 데이터 분석 용이하도록 기존 또는 유사 데이터와의 연계통합
  • 원하는 장소에 저장 → 품질확인 → 관리

 

 

[변환-결측치 데이터 종류]

  • 완전무작위결측 MCAR : Missing Completely At Random
    • 결측데이터가 관측된, 관측되지 않은 다른 변수와 아무런 연관 없는경우
    • 대규모데이터에서 단순 무작위 표본추출로 처리가능
  • 무작위결측 MAR : Missing At Random
    • 결측치가 관측된 다른 변수와 연관되어있지만, 그 자체가 비관측값과는 연관되지 않은경우
      • 나이 X, 성별 Y, 체중 Z
      • 여성(Y)이 체중 공개 꺼려해 ⇒ 체중데이터가 누락될 가능성이 여자한테만 의존
      • 젊은(X) 여성(Y)은 체중공개 꺼려해
  • 비무작위결측 NMAR : Not Missing At Random
    • 어떤 변수의 결측데이터가 완전무작위결측 or 무작위결측이 아닌 결측데이터로 정의
    • 결측치가 결측여부(이유)와 관련이 있는 경우
      • 무거운 사람은 체중공개 가능성 적음 ⇒ Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달려 있음
      • 소득이 적은 가구에 대한 소득값 결측이 쉽다

 

[변환-이상치의 탐지]

  • 종속변수가 단변량인지 다변량인지, 데이터 분포가 모수적인지, 비모수적인지에 따라 다양한 방법
  • 시각화를 통한 방법 (비모수적, 단변량(2변량))
    • 상자수염그림 Box Plot
      • Q3 + 1.5IQR보다 크거나 Q1 - 1.5IQR보다 작으면 이상치
    • 줄기-잎 그림 : 주로 작은 데이터셋, 줄기와 잎으로 데이터 분포와 이상치 파악 가능
      • 100 처럼 일반적인 패턴에서 벗어남, 줄기에서 큰 차이
    • 산점도 그림 : 그래프 상에서 너무 멀리 떨어져있는 값 = 이상치
  • Z-score 방법 (모수적 단변량 or 저변량)
    • 정규화된 데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타내는 지표
    • 통상적 threshold : 1표준편차 사이(68), 2표준편차 사이 (95%), 3표준편차 사이 (99%)
    • Z-score 절댓값이 임계값보다 큰 데이터 = 이상치
    • 데이터가 정규분포를 따른다고 가정할 때 효과적으로 작동!, 비정규분포일경우에는 잘못된 결과 도출 가능
  • 밀도 기반 클러스터링 방법 (비모수적 다변량)
    • 군집간 밀도를 이용해 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하고, 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주
  • 고립 의사나무 방법
    • 데이터가 다른 데이터랑 얼마나 분리되어있는지를 측정해서 이상치를 탐지
    • 알고리즘의 매개변수 설정과 이상치 판단 기준 임계값 설정에 따라 결과 달라질 수 있음
    • 데이터 포인트분할 → 분할기준 설정 → 분할된 데이터 영역 밀도계산 → 이상치 탐지(일반적으로 밀도 낮은 영역) → 의사결정나무 생성 (데이터 분할 및 이상치 탐지 반복, 정상데이터는 잎 노드에 할당)

 

 

[변수 선택]

  • 전진 선택법
    • 영모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 포함
    • 부분 F검정을 통해 유의성 검증을 시행
      • 유의) 가장 큰 F 통계량을 가지는 모형을 선택
      • 유의하지 않다면) 변수선택 없이 과정을 중단
    • 한번 추가된 변수는 제거하지 않는 것이 원칙
  • 후진 선택법, 후진소거법
    • 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 제외시킴
    • 부분 F검정을 통해 유의성 검증을 시행
      • 유의하다면) 변수 제거하지 않고 과정 중단
      • 유의하지 않다면) 변수 제거!!!
    • 한번 제거된 변수는 추가하지 않는다
  • 단계적 선택법
    • 전진 선택법 + 후진 선택법의 보완방법
    • 전진 선택법으로 가장 유의한 변수를 포함하고, 나머지 변수들에 대해 후진선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거
    • 유의한 설명변수가 존재하지 않을 때까지 과정반복, 각 단계에서 변수 추가 또는 제거가 더 이상 성능을 개선하지 않을 때까지 반복합니다.

 

[EDA-상관관계분석]

  • 상관분석의 기본가정
    • 선형성 : X와 Y의 관계가 직선적인지 알아보는 것, 산점도로 분포 확인
    • 동변량성(=등분산성) : X의 값과 상관없이 Y의 흩어진 정도가 같은것
    • 두 변인의 정규분포성 : 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것
    • 무선 독립표본 : 모집단에서 표본을 뽑을 때 확률적으로 선정된다는 것

 

[EDA - 기초통계량 추출]

  • 중심화 경향 기초통계량
    • 산술평균 : 다 더하고 자료수로 나눈 값
      • 자료-산술평균의 합 = 0
    • 기하평균 : N개의 자료에 대해서 관측치를 곱한 후 n 제곱근으로 표현
      • 다 기간의 수익률에 대한 평균 수익률, 평균물가상승률, 포트폴리오 투자 수익률, GDP 성장률 (비율)
    • 조화평균 : 각 요소의 역수의 산술평균을 구하고 다시 역수취하기
      • 변화율 등의 평균을 구할 때!!

+) 피어슨의 비대칭 계수 : 3*(평균-중앙값)/표준편차 (계수>0, 왼쪽으로 치우치고 오른쪽으로 긴꼬리 →정적편포)

 

 

 

📍Chapter 03 통계기법의 이해

[표본추출]

  • 표본추출 오차
    • 과잉대표 : 중복 선택 등의 원인으로 모집단이 반복 • 중복된 데이터만으로 규정되는 현상
    • 최소대표 : 실제 모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상
  • 확률표본추출 기법
    • 단순 무작위 추출 : 추출 모집단에 대해 사전지식이 많지 않은 경우 시행
    • 군집추출 : 모집단에 대한 추출기반을 마련하기가 어려운 경우
      • 표본 크기가 같다면, 단순 임의추출에 비해 표본오차 증대할 가능성 있음
      • 모집단을 차이가 없는 여러개 군집으로 나누어 군집 단위에 대한 분석을 시행

 

[이산확률분포의 종류(질량)]

  1. 베르누이분포 : 결과가 성공 아니면 실패, 두가지로 귀결되어 나오는 이산확률분포
  2. 이항분포 : 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
  3. 다항분포 : 여러개의 값을 가질 수 있는 독립확률변수들에 대한 확률분포로 여러번의 독립적 시행에서 각각의 특정횟수가 나타날 확률을 정의
  4. 포아송분포 : 단위시간안에 어떤 사건이 몇번 발생할것인지를 표현하는 이산확률분포
  • 단위공간, 면적에도 적용가능
  • 특정시간대에 은행창구에 도착한 고객의 수, 책 한페이지당 오탈자 수, 주어진 생산시간동안 발생하는 량품 수, 일정시간동안 톨게이트를 통과한 차량의 수
  • 이항분포가 n>30, p<0.05 시행횟수는 많고, 성공확률은 매우 작다면, 포아송 분포를 따름!!!

5. 기하분포 : 베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포

6. 음이항분포 : x번의 베르누이 시행에서 k번째 성공할 때 까지 계속 시행하는 실험에서의 확률을 나타내는 이산확률분포

  • 실패갯수 x-k

7. 초기하분포 : 비복원 추출에서 N개 중에 n개를 추출했을 때 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포

  • 한포장박스에서 3개를 무작위로 뽑아서 검사함, 박스에 5개의 불량품이 있다고 할 때, 뽑은 3개중에 불량품 1개가 들어갈 확률

 

 

[연속확률분포의 종류(밀도)]

  1. 연속균등분포 (=연속확률분포) : 분포가 특정 범위내에서 균등하게 나타나는 경우
  2. 지수분포 : 사건이 서로 독립적일 때, 일정시간동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때까지의 대기시간에 대한 확률이 따르는 분포
  • 포아송 과정에서 한개의 사건이 발생할 때까지의 대기시간을 의미
    • 특정한 사건이 일어나고, 그 다음에 같은 사건이 다시 일어날 때까지 걸리는 시간에 대한 분포
    • 지수분포는 평균과 표준편차가 동일, 포아송은 평균과 분산이 동일
    • 포아송분포는 단위시간당 발생하는 사건의 ‘횟수’를 관측, 지수분포는 사건이 일어날 때까지의 ‘대기시간’을 관측
  • 지수분포 = 무기억성질을 가지는 유일한 연속형확률분포
    • P(X>a+b|X>a) = P(X>b) 성립
    • P(X>a+b|X>a) 고려시, 이전의 a에 대한 확률값은 고려대상이 안되며 결국 b만 고려하면 된다는 의미

3. 정규분포 (=가우스분포) : 평균을 중심으로 대칭이며 종모양인 확률밀도함수

  • 표본을 통한 통계적 추정 및 가설검정이론의 핵심
  • 사회적, 자연적 현상에서 접하는 실제 자료의 분포가 정규분포를 띠기도함
  • 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 -무한대~+무한대

4. 표준정규분포 : 평균 = 0, 표준편차=1이 되도록 표준화한 정규분포

  • 정규화 : 어떤 관측치 X의 값이 그 분포의 평균에서 표준편차 대비 얼마나 떨어져있는지를 알 수 있게 함
  • 표준정규표에 의해 해당 확률변수의 확률값 계산이 가능함

5. 감마분포 : 지수분포나 포아송분포 등의 매개변수와 연관이 있는 분포

  • 감마분포는 지수분포를 한번의 사건이 아닌 여러개의 사건으로 확장한 개념
  • 두 개의 매개변수를 받으며 양의 실수를 가질 수 있다.
  • 신뢰성이론이나 수명시험에 유용하게 사용된다
  • 감마함수 : 팩토리얼을 실수 영역으로 확장한 것

6. 카이제곱 분포 : k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포로 정의

  • 자유도 : k를 지칭, 카이제곱분포의 매개변수
    • k>3일때부터 봉우리의 모양이되며, 자유도가 커질수록 대칭의 분포로 접근
    • 자유도 = 어떤 통계값을 계산하기 위해 독립적으로 취할 수 있는 값들의 수
  • 신뢰구간이나 가설검정에서 많이 사용된다

7. 스튜던트 t 분포 :

  • 정규분포의 평균 측정시 주로 사용하는 분포
  • 분포의 모양은 Z분포와 유사, 종모양으로서 t=0에 대해 대칭을 이루는데, t-곡선의 모양을 결정하는건 자유도
  • 자유도(표본크기n-1)가 클수록 정규분포와 거의 동일

8. F 분포 : 두 개의 확률변수 V1, V2의 자유도가 각각 k1,k2이고 서로 카이제곱분포를 따른다고 할 때 $(V1/k1)/(V2/k2) ~ F(k1,k2)$ 는 자유도가 k1, k2인 F분포를 따른다.

  • F 분포는 F 검정이나, 분산분석에 주로 사용되는 분포함수
  • 카이제곱은 한 집단의 분산을 다룬다면, F분포는 두 집단의 분산을 다룸

 

 

[추론통계]

  • 통계
    • 기술통계학 : 전체 자료를 표, 그림, 지표를 통해 자료의 특성을 나타내는 방법을 다룸
    • 추론통계학 : 데이터요약으로부터 논리적인 결론을 이끌어내는 통계적 추론
      • 추정 : 표본평균으로 모평균 추측, 모집단 평균에 대한 95% 신뢰구간 계산
      • 가설검정 : 모집단 실제값에 대한 주장으로, 표본 정보를 활용해 가설이 올바른지 판정하는 과정

 

[점 추정]

1. 추정량 선택기준

  • 불편성 : 표본 통계량의 기댓값 = 모수의 실제값과 같을 때 불편성 O
  • 효율성 : 추정량중에 가장 작은 분산을 가진 추정량이 가장 효율적 O
  • 일치성 : 표본크기 커질 수록 추정량이 모수에 근접
  • 충분성 : 추정량이 모수에 대해 가장 많은 정보를 제공할 때 충분추정량이 됨

2. 점 추정량 = 모집단의 특성을 단일값으로 추정하는 것을 말함

  • 모집단에서 추출한 표본공간의 함수!!!
  • 표본평균, 표본분산, 중앙값 등

3. 적률방법

  • 적률 (Moment)
    • 양수 n에 대해 확률변수 X^n 의 기댓값을 확률변수 X의 원점에 대한 n차 적률이라 함
    • 적률 = 확률분포의 특징 설명 ⇒ 적률생성함수를 알면 그 분포의 특징을 알 수 있음
  • 표본평균을 이용한 평균의 점추정시 적률에 의한 방법
    • 적률생성함수, 포아송분포 적률

4. 편향

  • 기대한 추정량과 모수의 차이
  • 불편추정량 = 편향이 0이되는 추정량 (표본평균O, 표본분산은 X)

5. 평균제곱오차 (MSE : Mean Square Error)

  • 점추정량θ^ - 모수θ 의 제곱한 값의 기댓값

6. 최대우도점추정

  • 우도함수 : 결합확률밀도함수를 모수θ 에 대한 함수로 볼 때 = 우도함수
    • 만약, 각 확률변수가 서로 독립이면 우도함수는 주변확률밀도함수의 곱으로 표현가능
  • 최대우도추정 : 표본을 얻을 확률이 가장 높은 θ^ 최대우도
    • 주어진 관찰값을 가장 잘 설명해주는 θ^를 모수θ 의 추정량 이라 하고, 이 추정량을 최대우도추정이라고 함
    • 미분을 통해 극댓값을 찾는 방법으로 최대우도추정량을 구함
    • 확률표본의 로그우도함수를 최대로 하는 θ를 θ^라 할 때, θ^ = 모수의 최대우도 추정량

 

[구간 추정]

1. 구간추정 : 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것

  • 모수가 있을 것으로 예상되는 구간을 정해, 그 구간에 실제 모수가 있다고 예상되는 확률을 기반으로 수행
  • 추정한 구간에 모수가 들어갈 확률 = 1-α = 신뢰수준 (95%)
  • α (0.05) = 유의수준 = 오차의 가능성, 오류를 범할 허용한계

2. 신뢰구간 : 모수 추정치 주변에 구간을 형성하여 모수의 값이 해당 구간에 속할 확률

  • 모집단의 평균을 추정하려고 할 때, 그 구간에 평균이 속할 확률이 95%임
  • 모수에 대한 불확실성을 고려하고, 신뢰도 제공
  • 변동성에 기반한 모수의 범위제시 →신뢰성 평가 가능

3. 모평균의 구간추정

  • 모집단의 분산을 알고있는 경우, Z-통계량 사용!!!
    • 신뢰수준 90% : 표본평균 + 1.645 * 표준편차/루트N
    • 신뢰수준 95% : 표본평균 + 1.960 * 표준편차/루트N
    • 신뢰수준 99% : 표본평균 + 2.576 * 표준편차/루트N
  • 모집단의 분산을 모르는 경우
    • 모집단의 표준편차를 모르는 경우 불편추정량(표본의 표준편차) S를 이용
    • 근데, 표본크기가 작고, 모집단의 표준편차를 모를 때, t분포 사용!!!
      • 정규분포를 다르지 않고 자유도 (표본크기-1)인 t-분포를 따름
      • t분포는 넓게 퍼진모양이지만, 자유도가 커질수록 정규분포에 거의 근접하게 됨
      • 신뢰수준 90% : 표본평균 + 1.725 * 표본의 표준편차/루트N
      • 신뢰수준 95% : 표본평균 + 2.086 * 표본의 표준편차/루트N

4. 모분산의 구간추정

  • 자유도가 n-1인 카이제곱분포

5. 모비율의 신뢰구간

  • 모집단 X가 이항분포 B(n,p)를 따르고, n이 충분히 크다고 하면,

6. 신뢰구간 표본 크기의 결정 : 317쪽

  • 모평균에 의한 신뢰구간을 이용한 표본의 크기 : (1.96 * 모분산) / 허용오차
  • 모비율에 의한 신뢰구간을 이용한 포본의 크기 : (2.58 * 표준편차) / 허용오차
    • 비율에서 표준편차는 루트(p*q)

 

[가설검정]

  • 귀무가설 (영가설) : 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설
  • 대립가설 : 연구자가 모수에 대해 새로운 통계적 입증을 이루어내고자하는 가설
  • 제 1종 오류 : 귀무가설이 참인데, 귀무가설을 기각한 경우 (무죄인데 유죄라고 한경우 = 더 중요)
  • 제 2종 오류 : 귀무가설이 틀렸는데, 귀무가설을 채택한 경우 (유죄인데 무죄라 한 경우)
  • 유의수준 : 1종오류를 범할 확률을 최대 허용한계, 가설검정의 판단기준
    • 유의수준이 낮을 수록 귀무가설을 기각하고, 자기 주장에 확신을 가질 수 있음
  • p-value (유의확률) : 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현
    • p-value가 0.7이면 잘못 기각할 확률이 0.7인거고, 0.3이었다면, 잘못 기각할 확률이 0.3인거
    • p-value가 작을 수록 귀무가설 기각 가능!!!
  • 기각역 : 귀무가설을 기각하게되는 검정통계량의 범위
  • 임계치 : 기각역의 경계값, 귀무가설 채택/기각에 관한 판단기준점
    • 계산한 값이 기각영역 안에 있으면 귀무가설 기각, 채택영역안에 있으면 귀무가설 채택
    • 임계치는 엑스바, Z, t로 나타낼 수 있음
  • 검정통계량 : 연구자에 의해 설정된 가설은 표본(모집단 전체 ❌❌❌)을 근거로 하여 채택여부를 결정짓게되는데, 이 때 사용되는 통계량 = 검정통계량
    • 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 함

 

[두 독립표본의 평균차이 검정]

  • 두 독립표본 X,Y의 평균차이 검정
    • 귀무가설 : 모평균1-모평균2 = 0
    • 대립가설 : >0, < 0 , 0이 아니다.
    • 검정통계량 T : 자유도 m+n-2인 t-분포를 따름
  • 대응표본의 평균차이 검정 : 실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍의 실험단위에서 랜덤하게 선택하여 두 처리를 적용하고, 각 쌍에서 관측값의 차를 이용하여 두 모평균의 차에 관한 추론 문제 다룰 수 있음⇒ 대응비교, 쌍체비교
    • 자유도 n-1인 t분포
  • 단일 표본 모분산에 대한 가설검정
    • 점 추정량 s^2을 이용해서 검정 → 카이제곱 검정
  • 두 모분산비에 대한 가설검정 (F검정)