본문 바로가기
📝 자격증/빅데이터 분석기사

[3과목] 빅데이터 모델링 필기+기출정리

by b5ingbo2ng 2024. 4. 11.

[학습 유형에 따른 데이터 분석모델]

  • 지도학습 : 정답 Label 이 있는 데이터를 활용해 데이터를 학습해서 입력값이 주어질 때 정답이 뭔지 알려주면서 컴퓨터를 학습시키는 방법 (ex. 손글씨로 작성된 숫자 이미지 데이터 분류)
    • 분류 Classification
      • 이진분류 : 주어진 데이터에 대해 두가지 중 하나로 분류
      • 다중분류 : 주어진 데이터에 대해 여러가지 중 하나로 분류
      • 대표 기법) 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트벡터머신(SVM), 로지스틱 회귀분석
    • 회귀 Regression : 주어진 데이터의 특징을 기반으로 새로운 데이터 값을 예측
      • 대표 기법) 의사결정트리(회귀), 선형회귀분석, 다중회귀분석
  • 비지도학습 : 정답 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내고 구조화하는 방법 (ex. 어떤 사람들이 주로 전기차를 샀는지 학습해 알아볼 수 있음)
    • 입력값은 있으나 출력값이 없어서 학습모델의 성능 평가하기 어려움
    • ex. USArrests 미국 주별 강력 범죄율 군집분석
    • 대표 기법) 군집분석 Clustering, 연관성분석Association Analysis, 인공신경망 Neural Networks, 오토인코더 Auto-encoder
  • 준지도학습 : 정답이 있는 데이터와 정답이 없는 데이터를 동시에 학습에 사용하는 기법
    • 라벨링하는데 데이터 규모가 너무 클 경우, 준지도학습을 사용하면 비용이나 학습정확도가 상대적으로 향상됨
    • 레이블된 소수 데이터만으로 부분학습모델을 만들고 → 이 모델을 사용해서 나머지 레이블이 없는 데이터에 레이블을 생성하고 → 지도학습 수행
    • 대표 기법) 셀프 트레이닝, GAN
      • 셀프 트레이닝 : 정답이 있는 데이터로 모델을 학습하고, 정답이 없는 데이터를 예측해서 이중에서 가장 확률값이 높은 데이터로만 정답데이터를 다시 가져가는 방식을 반복해서 높은 확률값이 나오는 데 가중치를 주는 간단한 기법
      • GAN (Generative Adversarial Networks 생성적 적대신경망) : 생성모델과 판별모델이 존재
        • 생성모델에서 데이터 분포 법칙에 따라 데이터를 생성하면,
        • 판별모델에서는 이를 판별하는 방식으로 학습 진행
        • 위조지폐범은 진짜 같은 위조지폐를 계속 만들어 경찰을 속일라하고, 경찰은 판별하면서 검거하는걸 목표로 함 → 경쟁적 학습이 지속되면, 위조지폐범은 거의 흡사한 수준으로 가짜 데이터를 만듦
  • 강화학습 : 주어진 환경에서 보상을 최대화하도록 에이전트 학습하는 기법
    • 에이전트와 환경의 상태 등이 인공신경망으로 들어가게되고, 에이전트가 행동을 결정하고, 환경을 통해 보상이 있으면 이전 입력값을 긍정적으로 학습
    • 대표적인 기법) Q-Learning, 정책경사PG:Policy Gradient
    • 탐색과 이용의 균형을 맞춰서 제고
    • 게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 등

[회귀분석]

  • 특정 변수가 다른변수에 어떤 영향을 미치는지를 수학적 모형으로 설명, 예측하는 기법
    • 독립변수(입력값, 원인)로 종속변수(결과값, 효과)를 예측
  • 회귀선 : 독립변수가 주어질 때의 종속변수의 기댓값, 최소제곱법 이용
  • 최소제곱법(=최소자승법) : 잔차(관측값y-예측값y) 제곱의 합이 최소가 되게 하는 직선을 찾는 방법 OLS(Ordinary Least Squares)
  • 회귀분석 모형 진단
    • 적합도 검정★★★ : 추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지 확인하는 방법
      • R^2(결정계수, 회귀선의 설명력)
      • SSR(회귀제곱합)/SST(총제곱합) 이 1에 가까울수록 높은 설명력
      • SST(총제곱합, Total Sum of Squares)
        = SSR(회귀제곱합, Regression Sum of Squares : 회귀모형에 의해 설명되는 변동의 제곱합) +
        SSE(오차제곱합, Error Sum of Squares : 오차에 의해 설명되는 변동의 제곱합)
    • 변수영향력 분석 : 종속변수에 독립변수들이 얼만큼 영향력을 미치는지 회귀변수의 통계적 유의성 검정, 회귀계수 추정치에 대한 표준오차와 신뢰구간 검증 등 p<0.05면 통계적으로 유의미
  • 회귀분석의 장단점
    • 장점 : 크기와 관계없이 계수들에 대한 명료한 해석과 손쉬운 통계적 유의성 검증 가능
    • 단점 : 선형적인 관계로 데이터가 구성되어 있어야 적용가능

1) 선형회귀분석

  • 종속변수 y, 1개 이상의 독립변수 x와의 선형상관성을 파악하는 회귀분석 기법
  • x,y 둘 다 연속형 변수
  • 선형회귀 분석의 기본적인 가정
    • 선형성 : 독립변수와 종속변수가 선형적이다
    • 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이뤄야한다
    • 잔차 독립성 : 잔차들은 서로 독립적이다
    • 잔차 등분산성 : 잔차들의 분산이 일정해야함, 1일 필요는 없음
    • 다중공선성 : 다중 회귀분석 수행할 때, 3개 이상의 독립변수 간에 상관관계로 인한 문제는 없어야함
  • ① 단순선형회귀분석 : y(종속1) = ax(독립1)+b
  • ② 다중선형회귀분석 : y(종속1) = ax1 + bx2 + … (독립변수 여러개)+ c
  • ③ 일반화 선형모형 (GLM : Generalized Linear Model)
    • 선형 회귀모형의 확장형태, 종속변수가 정규분포를 안따라도 적용 가능
    • 선형 예측변수와 링크함수를 사용해 종속변수와의 관계 설명

2) 로지스틱 회귀분석

  • 선형관계에 있어야하고, 종속변수, 독립변수와의 관계를 함수를 통혜 예측하지만, 종속변수가 연속형이 아니라 범주형!!
  • 정규분포 대신 이항분포를 따른다!!
  • ① 단순 로지스틱 회귀분석 : 종속변수가 이항형 문제 (범주의 개수가 2개인 경우)
  • ② 다중 로지스틱 회귀분석 : 종속변수가 2개이상의 범주를 가짐
    • 로지스틱 회귀함수식은 각 모수에 대해 비선형식, 승산(odds)로 로짓변환(0과 1로 조정)을 통해 선형함수로 치환가능
    • 승산(odds) : 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율, P(A)가 1에 가까울수록 발생확률 승산은 올라가며, 반대라면 0
  • +) 복수의 범주면서 순서가 존재하면 서수 로지스틱 회귀

[의사결정나무 Decision Tree]

  • 의사결정 규칙을 나무모양으로 나타내어 전체자료를 몇개의 소집단으로 분류하거나 예측할 수 있는 기법
    • 상위노드에서 분류된 각각의 하위노드는 노드 내 동질성이 커지고, 노드 간 이질성은 커지는 방향으로 분류변수와 기준값을 선택
    • 시장조사, 광고조사, 품질관리 등 다양한 분야에서 활용되고 있으며 타겟고객분류, 고객신용분류, 행동 예측 등에 사용됨
  • 용어
    • 뿌리마디=뿌리노드 : 나무가 시작되는 마디, 부모가 없는 마디로 대상이 되는 모든 자료집합을 포함
    • 끝마디=잎노트 : 각 나무줄기의 끝에 있는 마디, 자식이 없는 마디
    • 자식마디 : 하나의 마디로부터 분리된 2개 이상의 마디
    • 부모마디 : 자식마디의 상위마디
    • 가지 : 하나의 마디로부터 끝마디까지 연결된 마디들
    • 깊이 : 가장 긴 가지의 크기, 가지를 이루는 마디의 개수
  • 의사결정나무의 종류
    • 분류나무 : 목표변수가 이산형(범주형), 빈도 기반 입력 데이터가 분류되는 클래스
      • 상위노드에서 가지분할할때 카이제곱 통계량의 p-value, 지니지수, 엔트로피 지수 등이 분리기준
      • 분리기준을 선택할 때는 서로다른 데이터가 섞여있는 정도인 불순도를 통해 자식노드가 현재노드에 비해 불순도가 감소되도록 설정 (불순도 차이 = 정보획득)
    • 회귀나무 : 목표변수가 연속형, 목표변수 평균/표준편차 기반 예측된 결과, 특정 의미가 있는 실수값출력
      • 상위노드에서 가지분할할때 F-통계량의 p-value, 분산의 감소량 등이 분리기준
        • F-통계량의 p-value : 등분산성을 검정해서 p값이 커지면 등분산성이 있다는 거니까 낮은 이질성, 즉 순수도는 높아짐
        • 분산의 감소량 : 분산의 감소량이 최대화될수록 순수도가 높아지는 가지 분할
  • 의사결정나무의 분석과정
    • ① 변수선택
    • ② 의사결정나무 형성 : 분리기준, 정지규칙, 평가기준 등
    • ③ 가지치기 : 부적절한 나뭇가지 제거, 오버피팅막고, 일반화성능 UP
    • ④ 모형평가 및 예측 : 이익, 위험, 비용 고려
      • 정보획득 : 순도가 증가하고 불활실성이 감소하는 것 = 정보획득 (현재노드의 불순도와 자식노드의 불순도 차이 의미)
      • 재귀적 분기학습 : 분기 전보다 분기 후 정보획득량이 높아지도록 입력변수의 영역을 구분해서 사전에 설정한 기준을 만족할 때까지 분기를 반복하는 학습 (끝마디 엔트로피가 0이될때까지)
    • ⑤ 가지치기 : 평가용 데이터 활용, 부적절한 추론규칙, 분류오류 큰 마디 제거
      • 에러감소 가지치기 : 분할/결합 전과 후의 오류 비교하면서 오류가 더이상 줄어들지 않을때까지 반복
      • 룰 포스트 가지치기 : 나무구조를 뿌리부터 잎까지 경로의 형태로 변환할 뒤 정확도 낮은 순서부터 제거 (분기가 너무 많으면 과적합될 수 있기 때문)
    • ⑥ 타당성 평가 : 이익 도표, 위험도표, 교차타당성으로 의사결정나무 평가
    • ⑦ 해석 및 예측 : 최종 해석, 분류 및 예측 모델 결정
  • 의사결정나무의 대표적 알고리즘범주형/이산형연속형 목표변수
    CART 지니지수 분산감소량 (이진분리)
    C4.5 / C5.0 엔트로피 지수 x
    CHAID 카이제곱 통계량(순수도) ANOVA F-통계량
    • CART (Classification and Regression Trees) : 일반적으로 활용됨
      • 범주형, 이산형일때는 지니지수로 불순도 측정
      • 연속형일때는 분산의 감소량을 이용한 이진분리로 불순도 측정
    • C4.5 / C5.0 : 범주형, 이산형에만 활용
      • 엔프로피 지수로 불순도 측정, 범주 수만큼 분리하는데, 각마디에서 다지분리 가능
    • CHAID (Chi-sqaured Automatic Interaction Detection) : 범주형, 이산형 목표변수 & 연속형 목표변수에 활용
      • 카이제곱 통계량 활용
      • 가지치기하지 않고 적당한 크기에서 성장중지

    • 랜덤 포레스트 : 부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성 (다수결이나 투표를 통해 결정~!!!!!!!!!)

      • 예측의 변동성이 적으며 과적합을 방지, 데이터 수가 많아지면 정확도는 높아져도 수행속도는 느려짐
      • 부트스트래핑 Bootstrapping : 단순 복원 임의 추출법, 랜덤 샘플링으로 전체 관측값 중 일부(크기가 동일한 여러개) 표본자료를 뽑아 통계값을 측정하는 과정을 여러번 반복 
        • 배깅 Bagging = Bootstrap Aggregating : 여러 부트스트랩 자료를 생성해 학습하는 모델링으로 분류기를 생성한 후 그 결과를 앙상블하는 방법
          • 추출한 각 샘플별 모델링 학습 → 결과를 집계해서 최종결과를 만들어냄 (범주형이면 다수결투표, 연속형이면 평균내서 결과 집계)
          • 이전 분류기 학습결과 토대로, 잘 맞춘 약분류기는 가중치를더하고, 잘못 평가한 약분류기의 가중치는 제해서 누적된 약분류기 가중치를 합산해 최종 학습 모델링부스팅 Boosting : 가중치를 활용해 약분류기, 강분류기를 만드는 방법, 순차적으로 분류모델이 틀린 곳에 집중해 새로운 분류 규칙을 생성

 

  • 의사결정나무의 장단점
    • 장점 : 연속형, 범주형 변수에 모두 적용가능, 규칙에 대해 이해하기 쉬움, 다양한 분야(마케팅 캠페인 반응분석, 품질관리, 시장조사, 기업부도/환율예측)에서 활용가능
    • 단점 : 트리구조가 복잡하면 해석하기 어렵다, 데이터 변형에 민감하다

 

[인공신경망 ANN : Artificial Neural Network]

  • 인공신경망 특징
    • 인간의 두뇌 신경세포인 뉴런(노드)을 기본으로 한 기계학습 기법
    • 하나의 뉴런이 다른 뉴런들과 연결되어 신호를 전달, 처리하는 구조를 본뜸
    • 입력데이터가 들어가면 신호의 강도에 따라 가중치 처리되고, 활성화 함수를 통해 출력이 계산되는데, 학습을 거쳐 원하는 결과가 나오게끔 가중치가 조정됨
    • 신경망 모형은 높은 복잡성으로 입력자료의 선택에 민감함
      • 범주형 : 일정빈도 이상의 값으로 비슷하고, 범주가 일정한 구간이어야함
      • 연속형 : 입력변수 값들의 범위가 큰 차이가 없어서 표준화가 가능한 경우에 적합함
  • 인공신경망의 발전
    • ① 기존 신경망 다층 퍼셉트론의 한계
      • 사라지는 경사도 : 복잡한 문제해결을 위해 신경망 층수를 여러개 쌓을 경우, 역전파 학습과정에서 데이터가 사라져서 학습이 잘 되지 않음
      • 과대적합 : 데이터가 많지않은 경우, 학습데이터만 학습이 잘되고, 새로운 데이터는 잘 처리하지 못함
    • ② 딥러닝 등장
      • 깊은 층수 학습 시 사전학습 pretraining을 통해 학습함으로써 사라지는 경사도 문제 해결, 새로운 데이터 학습 잘 못하는 문제는 학습 도중에 고의로 데이터를 누락시키는 dropout 방법을 사용해 해결 → 리브랜딩 : 딥러닝 개념 등장
      • 알고리즘 개선 외에도 그래픽 저장장치 GPU등 하드웨어발전 → 신경망 계산량 증가
      • 딥러닝의 기본구조인 DNN(Deep Neural Network) 은 은닉층을 2개이상 가진 학습구조로 컴퓨터가 스스로 분류답안을 만들어내며 데이터를 구분, 반복해 최적의 답안 결정
        • DNN 응용 알고리즘 : CNN(Convolutional Neural Network), RNN, LSTM, GRU, Autoencoder, GAN 등
  • 인공신경망의 원리
    • 지도학습 : 입력값을 다음 뉴런으로 전달할 때 적절한 출력값을 생성하기 위해 가중치 W를 곱한 값에 편향을 더해 이를 조정해가면서 그 차이를 줄여가며 연결가중치 조정
    • 비지도 학습 : 학습데이터의 관계를 추론해 학습을 진행, 입력벡터들을 집단으로 그룹핑해서 해당 집단을 대표하는 데이터를 선정함
    • 강화학습 : 특정환경 안에서 에이전트가 현재상태를 인식하고 보상을 최대화하는 방향으로 동작 선택
  • 학습 : 손실함수값이 최소화되도록 하기 위해 가중치와 편향을 조정해가는걸 학습이라 정의
    • 손실함수 : 신경망이 출력한 값과 실제값과의 오차에 대한 함수
      • 평균제곱오차 (MSE Mean Squared Error) : 인공신경망의 출력값과 사용자가 원하는 출력값 사이의 거리 차이, 각 거리차이 제곱해서 더한후에 평균때린거
      • 교차엔트로피 오차 (CEE Cross Entropy Error) : 분류 부문으로 t값이 원-핫 인코딩 벡터이며, 모델의 출력값에 자연로그를 적용, 곱한다.
    • 학습 알고리즘
      • ① 미니배치 : 훈련데이터에서 일부를 무작위로 선택한 데이터 = 미니배치, 이에 대한 손실함수를 줄이는 것으로 목표설정
      • ② 기울기 산출 : 미니배치의 손실함수 값을 최소화하기 위해, 경사법으로 가중치 매개변수의 기울기를 미분을 통해 구함 (경사하강법, 경사상승법, 무작위 미니배치를 통한 확률적 경사하강법)
      • ③ 매개변수 갱신 : 가중치 매개변수를 기울기 방향으로 조금씩 업데이트하면서 1~3단계 반복
    • 오차 역전파 : 가중치 매개변수 기울기를 미분해서 진행하는건 시간소모가 크므로, 오차를 출력층에서 입력층으로 전달
      • 연쇄법칙(합성함수의 미분은 각각의 미분의 곱)을 활용한 역전파를 통해 가중치와 편향을 계산, 업데이트 한다.
      • 신경망 각 계층에서 역전파 처리는 덧셈노드, 곱셈노드의 연산 역전파처리, 활성화함수인 렐루(Relu)계층, 시그모이드(Sigmoid) 계층, 아핀(Affine)계층, Softmas-with-Loss 등이 있다.
        • 시그모이드 (이진분류) 활성화함수 : 참에 가까워지면 0.5~1출력
        • 렐루 (이진분류) 활성화함수 : 0보다 크면 입력값 그대로, 작으면 0으로 출력
    • 활성화함수 : 입력신호의 총합을 그대로 사용하지 않고, 출력신호로 변환하는 함수 (활성화를 일으킬지를 결정)
      • 퍼셉트론 : 1개 이상의 입력층과 1개 출력층 뉴런으로 구성된 활성화함수에 따라 출력되는 신경망구조
      • 다중 퍼셉트론 : 은닉층이 1개 이상의 퍼셉트론, 계단 함수를 사용해 0또는 1을 반환
      • 딥러닝 인공신경망 : 시그모이드를 포함한 다른 활성화함수들을 사용해 가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습하는 특징
    • 과대적합 : 기계학습에서 학습 데이터를 과하게 학습해서 정확도 높은데, 실제 데이터에서는 성능 떨어지면서 오차 증가
      • 해결방안)
      • ① 가중치 감소(가중치 매개변수 절대값을 가능한 작게 만들기)
        • 가중치가 클수록 일종의 페널티 부과해서 가중치 매개변수 절대값 감소 → 과적합 위험을 줄임
          • 페널티 역할 = 규제(정규화)가 이용되는데 모델을 강제로 제한
          • Lasso (라쏘) : L1 규제(정규화)
            • L1-norm 개념으로 Cost Function 비용함수 조정 → 맨허튼
            • 비용함수에 가중치 절대값 합에 규제강도를 곱한걸 더해서 편미분할 때 W값이 상수가 되며 +,-로 결정됨
            • 가중치가 너무 작으면 상수값에 의해 W가 0이 되므로, 중요한 가중치만 남게됨
          • Ridge (릿지) : L2 규제(정규화)
            • L2-norm 개념으로 Cost Function 비용함수 조정 → 벡터의 유클리드 거리값, 한 지점에서 다른 지점으로 이동하는 최단거리
            • 가중치 제곱의 합에 규제강도를 곱해 더해줌, 편미분 값을 이전 가중치에서 빼서 다음 가중치를 계산, 가중치를 업데이트하는데 가중치 크기가 직접 영향을 미쳐서 L1보다 L2 규제가 많이 활용됨!
      • ② 드랍아웃(일정 비율 뉴런만 학습)
        • 은닉층의 뉴런을 ★임의로 삭제★하면서 학습, 작은 뉴런만으로 훈련한 뒤 테스트 시에 전체 뉴런을 사용하면 정답을 보다 잘 찾을 수 있게됨
        • 가중치 조정하면서 입력과 출력 사이의 관계를 학습하는데, 가중치가 큰 뉴런에만 의존하게 되면, 성능이 저하됨 → 그래서 임의를 출력 0으로 만들어서 비활성화하면, 다른 뉴런이 강제로 더 학습됨
        • 과대적합 ⬇️ 일반화 성능 ⬆️
      • ③ 하이퍼파라미터 최적화 방법
        • 적절한 튜닝으로 최적화된 하이퍼파라미터 도출 → 과적합 방지
        • 초매개변수 : 최적의 모델 구현을 위해 학습률, 배치크기, 훈련반복횟수, 가중치 초기화 방법등 수동으로 설정하는 변수
        • 하이퍼파라미터 최적화는 일반적으로 교차검증과 함께 사용되며, 각조합의 성능을 평가해 가장 우수한 성능을 내는 조합 선택 (한번의 데이터셋으로 가장 좋은 하이퍼파라미터라고 단정지을 수 없어서 교차검증을 통해서 확인)
        • 1️⃣ 그리드서치 : 주어진 하이퍼파라미터 공간에서 가능한 모든 조합 시도해서 최적의 조합을 찾는 방법, 간단하고 직관적 O but, 공간이 커질수록 계산 비용 증가 (파라미터 값을 하나하나 지정)
        • 2️⃣ 랜덤서치 : 그리드 서치 단점 보완위해 랜덤하게 하이퍼파라미터 선택해서 성능 평가, 계산비용을 줄일 수 있으며 하이퍼파라미터 공간에서 중요한 부분을 더 자주 탐색할 수 있음 (범위를 설정해서 그 안에서 랜덤으로 뽑아서)
        • 3️⃣ 베이지안 최적화 : 기존의 평가 결과를 토대로 다음에 시도할 하이퍼파라미터 추정하는 방법, 계산비용 효과적으로 관리, 좋은 성능을 보인 하이퍼 파라미터 주변을 더 자주 탐색할 수 있음
        • 4️⃣ 자동화된 방법 : AutoML과 같은 자동화된 하이퍼파라미터 최적화 방법, 자동으로 탐색해서 최적의 하이퍼파라미터 조합을 찾음
    • 기울기소실 : 신경망에서 가중치 업데이트 시, 역전파 알고리즘이 오차를 뒤로 전파시키는 도중에 기울기 값이 점차 사라지는 현상
      • 입력과 출력 사이 거리가 커질수록 자주 발생 (거리가 커질수록 기울기 값이 연쇄적으로 곱해지게 되며, 여기에 작은 값이 들어있으면, 시작층에 도달하기 전에 거의 0에 가까운 값을 가지게 됨)
      • 기울기소실 해결방안)
        • ReLU(rectified linear unit) : 시그모이드랑 다르게 양수값에서 기울기가 일정한 1값을 가지게 되기 때문에 이 문제를 줄일 수 있음
        • LSTM(Long short-term memory) : RNN(Recurrent neural network)구조의 변형으로, 주로 시퀀스 길이가 길거나 장기의존성이 있는 데이터에 사용, 과거의 데이터 패턴을 잡아내는데 효과적
        • GRU : 여러 게이트(업데이트게이트, 리셋게이트)와 기억 매커니즘을 활용해 LSTM과 비슷한 성능을 보이며 더 단순한 구조로 연산비용 절감
        • 배치정규화 : 각 층에서 데이터분포를 정규화해서 발산문제 및 기울기 소실 해결
        • Adam, AdaGrad, RMSprop등 다양한 최적화 기법을 통해 완화가능
  • 딥러닝 모델 종류
    • ① CNN (Convolutional Neural Network, 합성곱 신경망 모델) : 사람의 시신경 구조를 모방한 구조
      • 인접하는 계층의 모든 뉴런과 결합된 완전연결을 구현한 아핀계층을 사용해 모든 입력 데이터들을 동등한 뉴런으로 처리 ex. LeNet, Alexnet, VGG, GoogleLeNet
      • 이미지 형상을 유지할 수 있는 모델로, 데이터의 특징, 차원을 추출해 패턴을 이해하는 방식 (이미지의 특징 추출, 클래스 분류과정)
        • 합성곱계층과 풀링계층이 추가된 구조, 입력된 데이터를 필터가 순회하며 합성곱을 계산하고, 특징지도 피처맵을 생성함
        • 합성곱계층 : 2차원 데이터 들어오면, 필터의 윈도우를 일정간격 이동하면서 입력 데이터에 적용함, 입력과 필터에서 대응한 원소끼리 곱하고 총합을 구하면 결과출력, 이걸 모든 영역에서 수행하면 합성곱의 연산출력이 완성됨 (편향은 항상 하나, 필터크기는 임의설정가능하지만, 모든 챝널의 필터크기는 동일해야함
        • 풀링계층 : 선택적 요소, 독립적 채널별 연산 (최대풀링, 평균풀링) ⇒ 과적합, 학습시간 줄임
        • OH (Output Height)= 
          • 입력크기 H + 2*패딩 - 필터크기FH / 스트라이드 + 1
        • OW (Output Width)= 
    • ② RNN (Recurrent Neural Network) : 순서를 가진 데이터를 입력해서 단위 간 연결이 시퀀스를 따라 방향성 그래프를 형성하는 신경네트워크 모델
      • 내부상태(메모리)를 이용하여 입력 시퀀스를 처리
      • CNN과 달리 중간은닉층이 순환구조로 동일한 가중치를 공유함, 확률적 하강법을 이용해 가중치와 편향에 대한 오차함수의 미분 계산
      • 가중치 업뎃위해서 과거시점까지 역전파함 BPTT(Back Propagation Through Time) → 순차적 데이터 처리에 유용
    • ③ LSTM (Long-Short term Memory Network) : 점차 데이터가 소멸하는 RNN의 단점 보완하기 위해 변형된 알고리즘
      • 보통 신경망 대비 4배 이상 파라미터를 보유, 많은 단계를 거쳐도 오랜시간동안 데이터 잘 기억
      • ★입력 게이트, 출력게이트, 망각 게이트★로 보완된 구조를 통해 가중치 곱하고 활성화함수를 거치지 않고, 컨트롤 게이트를 통해 상황에 맞게 값을 조절함 / / 복원을 하진 않음~!!!!
        • GRU : 여러 게이트(업데이트게이트, 리셋게이트)와 기억 매커니즘을 활용해 LSTM과 비슷한 성능을 보이며 더 단순한 구조로 연산비용 절감
      • 은닉층 외에 셀 C,Cell 이라는 층을 구성 = 장기 메모리를 기억하는 셀, 망각 게이트와 입력 게이트를 과거와 현재 상태의 셀로 조합해 과거 정보를 얼마나 망각할지 현재 정보 얼마나 반영할지 결정
    • ④ 오토인코더 Auto Encoder : 다차원 데이터를 저차원으로 바꾸고 바꾼 저차원 데이터를 다시 고차원 데이터로 바꾸면서 특징점을 찾아냄 ⇒ 데이터 압축, 저차원화를 통한 데이터 관찰, 배경잡음 억제에 활용
      • 입력으로 들어온 다차원 데이터를 인코더를 통해 차원을 줄이는 은닉층으로 보내고, 은닉층의 데이터를 다시 디코더를 통해 차원을 늘려 출력층으로 보냄 (출력값을 입력값과 비슷해지도록 만드는 가중치를 찾아냄)
      • 하나의 신경망을 두개 붙여놓은 형태, 출력계층 차원 수 = 입력계층차원수
      • 세부 종류
        • 디노이징 오토인코더 : 손상이 있는 입력값을 받아도 손상을 제거하고, 원본의 데이터를 출력값으로 만듦
        • 희소 오토인코더 : 은닉층 중 매번 일부 노드만 학습하여 과적합 문제를 해결
        • VAE : Variational, 확률분포를 학습함으로써 데이터를 생성
    • ⑤ GAN (Generative Adversarial Network) : 학습 데이터 패턴과 유사하게 만드는 생성자 네트워크와 패턴의 진위여부를 판별하는 판별자 네트워크로 구성 ⇒ 두 네트워크가 서로의 목적을 달성하도록 학습을 반복 (경쟁적 발전)
      • 판별자 네트워크 : 랜덤 노이즈 m개 생성, 생성자 네트워크에 전달, 변환된 데이터 m개와 진짜 데이터 m개 획득, 2m개의 데이터를 이용해 판별자의 네트워크 정확도 최대화하는 방향으로 학습
      • 생성자 네트워크 : 랜덤 노이즈 m개를 재생성해 생성자가 판별자의 정확도를 최소화하도록 학습
    - 기초연구, 응용산업에 폭넓게 사용, DCGAN, SRGAN, Cycle GAN 등 종류 다양
    
  • 인공신경망의 장단점
    • 장점 : 비선형적 예측 가능, 다양한 데이터유형/새로운 학습환경/불완전한 데이터입력 등에도 적용가능
    • 단점 : 데이터가 커질수록, 학습시키는데 시간비용 기하급수적으로 커짐, 모델에 대한 설명기능이 떨어지나 Explainable AI 설명가능한 AI 등 대체안이 연구되고 있음

[서포트벡터머신 SVM : Support Vector Machine]

  • 서포트벡터 머신 특징
    • 지도학습 기법
    • 고차원 또는 무한차원의 공간에서 초평면의 집합을 찾아 이를 이용하여 분류와 회귀 수행
    • 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로, 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진선형분류모델을 만드는 기법
    • 만들어진 분류모델은 데이터가 사상된 공간에서 경계로 포함되는데, 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘
  • SVM 의 주요요소
    • 벡터 Vector : 점들 간 클래스
    • 결정영역 Decision Boundary : 클래스들을 잘 분류하는 선
    • 초평면 Hyperplane : 서로 다른 분류에 속한 데이터들 간 거리를 가장 크게 하는 분류 선 (2차원에서는 직선, 3차원에서는 평면)
    • 서포트벡터 Support Vector : 두 클래스 사이에 위치한 데이터 포인트들 서포트 벡터, 두 클래스 간격 = 마진이 최대화될 수 있도록 분류하는 점선들의 중간직선=초평면
    • 마진 Margin : 서포트벡터를 지나는 초평면 사이의 거리
  • SVM 핵심적 특징
    • 기존 분류기가 오류율 최소화를 특징으로 한다면, SVM 여백(마진) 최대화로 일반화 능력의 극대화를 추구
    • 초평면의 마진은 각 서포트 벡터를 지나는 초평면 사이의 거리를 의미 = 2/w , 이 마진을 최대화해야하므로 w의 크기를 최소로 만들어야 함 (마진이 가장 큰 초평면을 분류기로 사용)
    • 가중치 벡터는 초평면에 직교하며 편향은 초평면의 오프셋을 제공
    • SVM은 선형분류와 더불어 비선형 분류에도 사용가능, 이때 주어진 데이터를 고차원 특징공간으로 사상하는 작업 필요하고, 이때 커널 트릭(데이터 차원을 늘리는 커널함수)을 사용하기도 함
  • SVM의 장단점
    • 장점 : 분류, 회귀 예측 문제에 동시에 활용가능, 신경망 기법에 비해 적은 데이터로 학습 가능, 과대적합/과소적합 정도 덜함
    • 단점 : 이진분류만 가능(다중분류하려 면 n개의 SVM을 만들기도), 데이터가 많을 시 시간 오래 소요, 각각 분류에 대한 SVM 모델 구축 필요

[연관성 분석=장바구니 분석]

  • 연관성 분석 특징
    • 둘이상의 거래, 사건에 포함된 항목들의 관련성을 파악하는 탐색적 데이터분석 기법
    • 콘텐츠 기반 추천의 기본방법론
    • 그룹에 대한 특성분석, 유사한 개체들을 그룹화해서 각 집단의 특성 파악에 활용 → 군집분석과 병행가능
    • 구매패턴, 구매행동 이용자들간 연관성 분석할 때 일정한 연관규칙을 찾는 비지도학습 기법
  • 연관규칙(Association Rule) 순서
    • ① 데이터 간 규칙 생성 : if 조건절 → 결과절
    • ② 어떤 규칙이 데이터 특성에 부합되는지 기준설정
      • 지지도 Support : 데이터 전체에서 해당 물건을 고객이 구입한 확률 → 기준지지도에 활용
        • 지지도 = 동시거래 / 전체거래
      • 신뢰도 Confidence : 어떤 데이터를 구매했을 때 다른 제품이 구매될 조건부확률
        - 신뢰도 = 지지도 / P(A)
      • +) 연관규칙에서 성능 평가지표 : 1️⃣ 지지도, 신뢰도가 모두 최소한도보다 높아야 !!!
        +) 2️⃣ 최소 지지도를 구하고 그 이하는 버리고 그 중에 신뢰도가 높은 결과만 사용
      • 향상도 Lift : 두 물건의 구입여부가 독립인지 판단하는 개념, 1이면 상호독립, 1보다 크면 양의 상관, 작으면 음의 상관
        • 향상도 = 지지도 / P(A)P(B)
    • ③ 규칙의 효용성 평가(실제 규칙 생성)
      • 지지도, 신뢰도, 향상도가 높은 규칙을 발견하기 위해 모든 경우를 탐색하면 계산비용 급증 → 빈발(frequent item sets)만 고려하고, 연관규칙을 생성하는 아프리오리 Apriori 알고리즘을 활용하는 추세
  • 아프리오리 Apriori 알고리즘
    • 모든 항목집합의 지지도를 계산하는게 아니라 최소 지지도 이상의 빈발항목 집합만 찾아내서 연관규칙을 계산하는 기법 (두개 이상의 품목들 사이에 관련성!!!★)
      • 최소 지지도 이상의 항목이 빈발 : 이 항목집합의 모든 부분집합은 역시 빈발항목집합으로 연관규칙 계산에 포함 ⇒ 지지도, 신뢰도가 높을수록 발견되는 연관규칙 개수는 더 줄어든다.
      • 최소 지지도 미만의 항목이 비빈발 : 항목집합을 포함하는 모든 부분집합은 비빈발항목집합으로 가지치기함
      • 최소신뢰도 기준을 적용해서 최소 신뢰도에 미달하는 연관규칙은 다시 제거하고, 반복작업을 수행, 새로운 연관규칙이 없을 때까지
  • 연관분석의 장단점
    • 장점 : 분석결과가 이해하기 쉽고, 실제로 적용하기 용이
    • 단점 : 품목이 많아질수록 연관성 규칙이 더 많이 발견되나, 의미성에 대해 사전판단이 필요, 상당수의 계산과정이 필요

[군집분석]

  • 군집분석 특징
    • 비지도학습, 각 개체들의 유사성을 분석해서 높은 거끼리 일반화된 그룹을 분류하는 기법
    • 군집에 속한 개체들의 유사성과 다른그룹과의 상이성을 분류해 규칙 내지 결과없이 주어진 데이터들을 가장 잘 설명하는 그룹을 찾을 수 있음
  • 군집분류 시 기본적인 가정
    • 하나의 군집 내 속한 개체들의 특성은 동일하다
    • 군집의 개수 또는 구조와 상관없이 개체간의 거리를 기준으로 분류
    • 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타냄
  • 군집분석의 척도 : 군집분석의 유사성 계산은 방법에 따라 거리와 유사성으로 구분
    • 거리 : 값이 작을수록 두 관찰치가 유사함
      • 유클리드 거리 : 2차원 공간에서 두 점간의 거리로, 두 점을 잇는 가장 짧은 거리 개념
        • 피타고라스 정리를 통해 측정, 민코프스키 거리 m=2 적용시 L2거리 로도 불림 (유클2드)
        • 블록을 무시하고 출발점과 도착점을 잇는 가장 짧은 거리
      • 맨허튼 거리 : 사각형 격자, 블록으로 이뤄진 지도에서 출발점에서 도착점까지 가로지르지 않고 도착하는 최단거리 개념
        • 택시거리, 시가지거리, 민코프스키 거리 m=1 적용시 L1 거리 로도 불림
        • 공간벡터 사이에 차원실수를 직교 좌표계에 일정한 좌표축의 점 위에 투영한 선분길이합으로 각 변수값 차이의 절댓값의 합
      • 민코프스키 거리 : m차원 민코프스키 공간에서의 거리, m=1일 때, 맨해튼 거리와 같고, m=2일 때 유클리드 거리와 같음
        • 민코프스키 공간 = 특수상대성이론과 관계가 있는 시공간, 일반적인 3차원 유클리드 공간에 시간이 결합한 4차원적 다양체
      • 마할라노비스 거리 : 두 특징 간 나타나는 데이터의 방향성과 상관도를 나타낸 공분산 행렬 개념을 적용해 정규분포에서 특정 값이 얼마나 중심, 평균에서 멀리 있는지를 나타낸 거리
        • 변수의 표준화와 상관성이 함께 고려되는 특징
      • 자가드 거리 : 비교대상인 두 객체를 특징들의 집합으로 간주 → 범주형 데이터에서 비유사성을 측정하는 지표
        • 자가드 인덱스 = 교집합 / 합집합
        • 자가드 거리 = 1 - 자카드인덱스
    • 유사성 : 값이 클수록 두 관찰치가 서로 유사함
      • 코싸인 값, 상관계수
  • 군집분석의 종류
    • 병합 방식 : N군집에서 시작, 하나의 군집이 남을 때까지 순차적으로 비슷한 군집들을 병합
    • 분할 방식 : 전체 하나의 군집에서 시작해서 N군집으로 분할
    • ① 계층적 군집분석 : 계층화된 상위-하위그룹 구조로 군집을 형성, 중복없이 작은 자료군 기반, 군집 수 명시 필요하지 않고, 덴드로그램을 통해 결과표현을 시각화함
      • 계층적 병합 군집화 : N개의 군집으로 시작하고, 가장 근접하고 유사한 두개의 군집들이 1개 군집으로 병합, 가장 거리가 짧은 두개의 군집들이 순차적으로 병합
      • 최단 연결법 single link : 군집과 군집, 데이터 간의 거리 중 최단 거리min값을 거리로 산정
      • 최장 연결법 complete-link : 최장거리를 거리로 산정
      • 평균 연결법 average-link : 군집과 군집/데이터 간의 거리의 평균값을 거리로 산정
      • ward 연결법 : 군집 내 편차들의 제곱합을 고려한 군집 내 거리를 기준
    • ② 비계층적 군집분석 (분할적 군집) : 사전 군집 수로 표본을 나누며 레코드(군집)들을 정해진 군집에 할당함 ⇒ 적은 계산량, 대규모 DB에서 처리 유용
      • K-means 평균 군집분석 : 각 중심에 모인 데이터를 같은 군집으로 할당하는 대표적인 군집 분석 알고리즘
        • K-means : 주어진 데이터를 k개의 클러스터로 묶어 각 클러스터 간 거리 차이의 분산을 최소화하는 방식으로 동작
        • 군집들 내부의 분산을 최소화하여 각각의 사례를 군집들 중 하나에 할당함
        • 개별 유형의 특징 파악, 좌표기반 군집분석 ⇒ 대용량 데이터 처리에 유용
        • 임의 지정한 중심점 k개의 초기 군집으로 시작 → 가장 가까운 중심을 가진 군집에 할당 → 군집 중심 재설정, 관찰치 변동시 중심 재계산 → 허용오차 이내 반복하고 분산이 증가하면 중단
      • 밀도 기반 클러스터링 DBSCAN (Density-based spatial clustering applications with noise)
        • 밀도를 기반으로 클러스터형성하기 때문에 클러스터 개수를 미리 지정할 필요없음!!!!!
        • 개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑
        • 파라미터로 밀도계산 범위 epsilon 와 하나의 그룹으로 묶는 최소 개체 수 minPts가 필요
        • 이상치는 충분한 고려없이 제외 가능
      • 확률분포 기반 클러스터링 (Gaussian Mixture Model, 가우시안 = 정규분포)
        • 전체 데이터 확률분포가 가우시안 분포 조합으로 이뤄졌음을 가정하고, 각 분포에 속할 확률이 높은 데이터 들 간 군집형성
        • 개별데이터가 정규분포상에서 어떤 분포에 속할지 더 높은 확률로 배정된 부문으로 군집화
        • 대용량은 적합하지 않고, 정규분포조합가설에 어긋나면 부적절한 클러스터링 됨
  • 군집분석의 장단점
    • 장점 : 다양한 데이터 형태에 적용 가능, 특정 변수에 대한 정의가 필요하지 않는 적용이 용이함
    • 단점 : 초기 군집수, 관측치 간의 거리에 따라 결과 바뀔 수 있음, 주어진 사전 목표가 없어서 결과해석 어려움

[범주형 자료분석]

  • 범주형 자료분석의 통계적 정의
    • 변수들이 이상형 변수일 때 주로 사용하는 분석 (두 제품 간 선호도가 성별에 따라 연관이 있는지 여부 판단), 각 집단 간의 비율 차이가 있는지 확인하고 싶을 때
  • 자료 분석
    • 자료의 형태에 따른 범주형 자료 분석 방법독립변수 (X)종속변수(Y)분석방법예제
      범주형 범주형 빈도분석, 카이제곱 검정, 로그선형모형 지역별 선호정당
      연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼 선호도
      범주형 연속형 T검정(2그룹), 분산분석(2그룹이상) 지역별 가계수입의 차이
      연속형 연속형 상관분석, 회귀분석  
    • 분할표 : 범주형 데이터가 변수에 따라서 통계표 형태로 정리되어 쓴 것
      • 차원 : 성별, 성적 2차원, 분할표의 구성에 관계된 변수의 수
      • 수준 : 범주형 변수가 가지는 범주의 수 (3*4크기)
      • 비율의 차이 : -1~1, 독립이면 0, α1 - α2
      • 상대적 위험도 : 0~♾, 독립이면 1, α1/α2
      • 오즈비 : 0~♾, 독립이면 1, {α1 / (1 - α1)} / {α2 / (1 - α2)}
    • 빈도 분석 : 빈도, 비율 계산, 데이터에 질적자료&양적자료 많을 때, 질적 자료 대상으로 오류 있는지 확인
    • 로지스틱 회귀분석 : 두집단 혹은 이상의 집단으로 나눠진 경우 개별 관측치가 어느집단으로 분류되는지 분석
    • 교차분석 * 카이제곱 검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지 판단
      • 적합도 검정 : 범주형 변수가 1개, 이를 기준으로 관찰빈도와 기대빈도 비교, 확률분포와 적합한지 검정 (흰수건, 파란수건, 노란수건으로 관찰빈도, 기대빈도 확률 계산)
      • 동질성 검정 : 범주형 변수가 2개, 서로 연관되어있는지 독립인지 여부 검정 (성별과 흡연여부의 관계 구하기)
      • 독립성 검정 : 범주형 변수 2개, 각 그룹별로 동질성이 있는지, 확률분포가 같은지 검정 (남자그룹과 여자그룹의 흡연율이 동일한지 알아보기)
      • 카이제곱 검정값 = 관측값-기대값 의 제곱값을 기대값으로 나눈 값들의 총합
    • t-검정 : 독립변수 =2개의 범주형, 종속변수 = 연속형인 경우 사용 → 두 집단의 평균 비교
      • 두 집단의 평균차이가 유의미한지 판단가능
      • 모집단의 분산, 표준편차 알 수 없는 경우, 표본으로부터 추정된 분산이나 표준편차를 이용해서 두 모집단의 평균의 차이로 두 집단의 차이가 있는지 거정
    • 분산분석 : 독립변수 =두개 이상의 범주형, 종속변수 = 연속형 → 두 집단 간의 분산 비교

[다변량분석]

  • 특징
    • 다수의 측정치를 동시에 분석하는 모든 통계적 방법
    • 통계적으로는 종속변수의 관계성을 고려해 여러개의 일변량분석(t-검정, ANOVA, 회귀분석)을 동시에 수행하는 것을 의미
  • 다중회귀분석 Multi Regression : 다수의 계량적 독립변수의 변화 ⇒ 종속 변수의 변화를 예측
    • 다중공선성 진단 → 회귀계수 유의성 확인 → 수정된 결정계수 확인 → 모형의 적합도 평가
    • 회귀모형의 적합도 분석, 독립변수들이 종속변수를 설명하는 정도, 상대적인 기여도 파악 가능
      • 월 외식경비는 가정의 소득, 가족 구성원의 수와 같은 독립변수들에 의해 예측가능
  • 다변량 분산분석 Multivariate ANOVA
    • 2개 이상의 범주형 독립변수 〰 2개이상의 계량적 종속변수 간 관련성을 동시에 알아볼때
    • 일변량 분산분석의 확장된 형태
    • 다변량 분산분석은 두개이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설 검정할때
      • 다수의 관광행동집단과 관광만족도 차원이 있을 때, 각 행동집단의 다수 관광만족도 차원을 비교분석할 때
  • 다변량 공분산분석 Multivariate ANCOVA
    • 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 다변량 분산분석과 함께 이용되는 방법, 절차는 이변량부분상관과 비슷
    • 호텔종업원 교육 시 종업원의 학력은 통제하고 이론시험 성적과 실무성적이 교육방식에 따라 차이가 있는지 알고자 할 때
  • ★정준상관분석 Canonical Analysis★
    • 두 변수 집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법
    • 정준상관계수 = 정준변수들 사이의 상관계수
    • 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질 수 있다.★
    • 정준상관분석은 인과관계, 인과성이 없다!!!!
    • 2개이상의 계량적 독립변수 ⇒ 하나의 계량적 종속변수 간 관련성 조사하는 다중회귀분석을 논리적으로 확대
    • 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아냄
      • 다수의 외식동기 항목과 레스토랑 선택속성 변수들간의 관계분석 →고객의 외식동기가 레스토랑 선택에 미치는 영향분석
  • 요인분석 Factor Analysis
    • 주로 변수간의 상호의존성(상관관계, 함께 변하는지 독립적인지 → 숨겨진 패턴/구조 찾기)을 파악
    • 변수들을 공통요인들로 설명하고자할 때, 변수의 차원을 축소(변수들을 함께 요약하여 어떤 의미있는 주제나 특성을 추출)하기 위해 사용 ⇒ 데이터 복잡성 감소, 변수 간 상호의존성 간소화
    • 주성분분석(PCA) 이나 최대우도법 기반으로 수행
      • 정방행렬을 사용하며, 주로 공분산행렬이나 상관행렬이 활용됨,
      • 데이터 행렬을 비음수행렬로 가정하는 경우도 있지만, 음상관행렬의 곱으로 바꾸는 거랑은 상관이 없음
      • 탐색적데이터분석 방법 중 하나로, 다변량자료에서 존재하는 비정규성이나 이상치를 발견하기 위해 변수들의 상관관계가 존재하지 않는 새로운 변수를 구하는 것벼
      • PCA는 놀랍게도 본래 변수들이 서로 상관이 있을때★만 가능하다, 선형결합!
      • 어떤 사전적 분포가정의 요구도 필요없다.
      • 가장 분산이 큰★ 방향이 주요 중심관점으로 설정된다.
      • 스케일에 대한 영향이 크다. PCA를 위해서는 변수간의 스케일링★이 필수적이다.
    • 분석결과 : 고유값, 요인구성, 요인변수 등이 제공됨 ⇒ 변수들의 중요도, 변수 간 관계, 요인의 해석 평가
    • 요인분석은 주로 측정도구의 타당성을 파악하기 위한 방법으로 많이 사용됨
    • 종류
      • 탐색적 요인분석 : 연구자가 가설적인 요인을 설정하지 않고, 얻어진 자료에 근거해 경험적으로 요인의 구조를 파악, 어림해 만들어보는 것,
      • 확인적 요인분석 : 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증하는 확인적 요인분석 (적합성 확인)
  • 군집분석 Cluster Analysis
    • 집단에 대한 사전정보가 전혀 없는 표본에 대해 유사성에 기초해 분류체계를 찾을 때,
    • 판별분석과 다르게, 군집분석에서는 집단이 사전에 정의되어있지 않음 = 비지도
    • 군집 분석의 첫단계는 몇개의 집단이 존재하는지 알아보기 위해 표본들 간 유사성 혹은 연관성을 조사
  • 다중 판별 분석 Multi Discriminant Analysis
    • 종속변수가 남녀, 상/중/하 와 같이 두개 이상의 범주로 나누어져 있을 경우(=비계량적 변수), 다중판변분석 이용
      • 다중회귀분석처럼 독립변수는 계량적 변수로 이뤄짐
      • 각 표본이 종속변수에 기초해 여러개 집단으로 분류될때 적합함
      • 어떤 호텔리어가 새롭게 만든 패키지상품이 고객에게 호응을 얻을것인가를 알아볼 때, 가격, 명성, 부대시설이라는 척도가 있는데, 관련성을 파악해서 가격이 구매자와 비구매자를 판별하는 좋은 척도라는 것을 밝혀낼 수 있음
  • 다차원 척도법 DMS : Multi Dimensional Scaling
    • 다차원 관측값 or 거리 or 비유사성을 이용해서 원래의 차원보다 낮은 차원(보통2차원)의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자함
    • 차원축소, 상대적 위치 →개체들의 관계를 쉽게 파악하고자 함. ⇒ so, 실제 x,y 값과는 다른위치
      • 근데 공간적 배열에 대한 주관적 해석에 중점을 두고 잇음
      • 특정 관광지를 대상으로 관광객의 인지에 대한 유사성 연구 ⇒ 응답자가 경쟁관광지와 비교하며 자기 지역 관광상품에 대한 이미지를 어케 자각하는지 알 수 있음

[시계열 분석]

  • 백색잡음 = 아무런 패턴이 남아있지 않은 무작위한 움직임(진동)을 보이는 데이터를 말함
  • 시계열 자료의 성분
    • 불규칙 성분 : 시간에 따른 규칙적인 움직임이 없는, 무관한, 랜덤하게 움직임
    • 체계적 성분 : 시간에 따른 규칙이 존재
      • 추세 성분 : 지속적으로 증가, 감소하는 trend 포함
      • 계절 성분 : 주기적 성분에 의한 변동, 시즈널리티, 계절, 주, 월,년
      • 순환성분 : 주기적인 변화나 계절적인게 아니라 주기가 긴 변동을 가지는 형태, 경기대순환 Business Cycle
      • 복합성분 : 추세성분과 계절성분을 동시에 가짐 → 시즈널리티 있게 점점 증가
      • 자기 상관성 : 시계열 데이터에서 시차값들 사이에 선형관계를 보이는 것 = 자기상관
      • 백색잡음 : 자기 상관성이 없는 데이터 지칭, 아무런 패턴이 남아있지 않은 무작위한 움직임(진동)을 보이는 데이터
  • 정상성 Stationarity : 시계열 데이터가 평균과 분산이 일정한 경우를 지칭
    • 정상성이 있으면 분석이 용이
    • 평균이 일정 : 차분difference을 통해 정상성을 가질 수 있음
    • 분산이 일정 : 변환transformation을 통해 정상성을 가질 수 있음
    • 공분산의 경우 : 단지 시차에만 의존, 특정시점에는 의존 X
  • 정상시계열 자료의 특징
    • 어떤 시점에서 평균분산, 특정시차가 일정한 경우의 공분산이 동일
    • 정상시계열은 항상 평균회귀 경향 O, 평균 주변의 변동은 대체로 일정한 폭
    • 정상성이 있으면 다른 시기에도 사용이 가능한 정보로 일반화가능
  1. 단순방법
  • 이동평균법 : 일정 기간을 시계열을 이동하면서 평균을 계산하는 방법 → 추세파악, 시계열의 다음기간 예측
    • 데이터가 많고 안정된 패턴을 보이는 경우 판단의 효용성 높음
    • 뚜렷한 추세가 있거나 불규칙한 움직임이 적은 경우는 n을 작게(짧은 관찰기간) 사용
      • 반대의 경우는 n을 늘려서 사용
  • 지수평활법 : 관찰기간의 제한 X, 모든 시계열 데이터를 사용, 최근 시계열에 더 많은 가중치 주며 추세 찾아감
    • 단기간에 발생하는 불규칙 변동을 평활할 때 주로 사용
    • 지수평활계수의 효과 → 과거데이터일수록 가중치 작게, 시간의 지수배로 가중치가 높아짐
    • 지수평활법은 중기이상의 예측에 주로 사용
      • 그러나!!! 단순지수평활법은 장기추세, 계절성이 포함된 시계열 데이터에 부적합
    • 지수평활계수 λ가 작으면 지엽적 변화에 민감, 반대로 λ가 크면 지엽적 변화에 둔감
  • 분해법 : 시계열 자료의 성분 분류대로 시계열 데이터를 분해
    • 체계적 성분을(추세성분, 계절성분, 순환성분) 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법
    • 장기적인 추이 분석, 불규칙성분으로부터 불규칙성이 발생한 지점을 찾기
    • 계절조정 자료 = 원자료에서 계절성분(장기적 변화 살피는데 방해되어서)을 뺀 자료
  1. 모형에 의한 방법
  • 자기회귀모형 AR : AutoRegressive Model
    • 현재값이 이전의 값들에 의존하는 선형회귀모형
    • P시점 전의 자료가 현재자료에 영향을 준다는 가정 하에 만들어진 시계열 예측 모형 (ex. 과거의 주가데이터를 AR모형으로 모델링하면 현 주가에 어떤 영향을 미치는지, 패턴을 따르는지 알 수 있음)
    • AR은 시계열 데이터 예측, 변동성 모델링, 이상탐지 등 다양한 분야에서 활용됨
    • 주요 특징
      • 차수 : 현재 값이 p개의 이전 값에 의존, 이전 값들은 현재값을 예측하는데 사용
      • 회귀계수 = AR계수 : 시계열 데이터의 자기상관구조를 나타내며, 이전값들의 영향력을 결정
      • 백색잡음 : AR모형에서의 예측오차를 백색잡음으로 가정 (예측오차들이 상관관계없이 독립적으로 발생한다는 가정을 의미)
  • 자기회귀이동평균모형 ARMA : AutoRegressive Moving Average Model
    • ARMA(p,q)
      • ARMA(1,1) 모형 = 자기회귀모형에서 이전1개값에 의존, 이동평균모형에서 이전1개 예측오차에 의존하는 모형을 의미
    • 자기회귀모형 AR + 이동평균모형MA(오차항에 의해서만 시계열 결정)을 결합한 형태
    • 시계열 데이터의 자기상관과 이동평균 구조를 설명하는데 사용됨
    • 과거 값들과 이전 예측 오차들이 현재값을 예측하는데 어떤 영향을 미치는지 알 수 있음
    • 주요특징
      • AR(p) : 현재 값이 p개의 이전값에 의존하는 선형회귀 모형
      • MA(q) : 현재값이 q개의 이전예측오차에 의존하는 선형회귀 모형
      • 백색잡음 : 예측 오차를 백색잡음으로 가정
  • 자기회귀누적이동평균모형 ARIMA : AutoRegressive Integrated Moving Average Model
    • ARIMA(p,d,q)
    • ARIMA 모형은 비정상적인 시계열 데이터를 정상성을 가진 시계열 데이터로 변환한 후, AR과 MA를 결합해 모델 구축
    • 시계열 데이터의 경향성, 계절성, 잔차구조 등을 설명하는데 사용됨
    • ARIMA 모형은 AR자기회귀모형 + MA이동평균모형 + 데이터의 차분을 결합한 형태로 정의
      • 차분 : 현재값-이전값, 시계열 데이터의 경향성을 제거하는 과정 ⇒ 이를 통해 정상성 가진 시계열로 변환해 모델링 가능

[베이즈 기법]

  • 베이즈 추론 (= 베이지안 추론) : 추론대상의 사전확률과 추가적인 정보를 통해 해당대상의 사후확률을 추론하는 방법
    • 베이즈 확률론 기반, 변수의 확률분포를 추정하는 것을 의미
    • ① 확률론적 의미해석 (조건부 확률)
      • 추론의 대상 A(원인), 사전확률 P(A), 관계된 B, 조건부 확률 P(B|A) = 우도확률
        ⇒ 사후확률 P(A|B) = P(B|A)*P(B) / P(A) [베이즈 정리]
    • ② 베이즈기법의 개념
      • 객관적 관점 : 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수있음, 논리의 확장으로 설명가능
      • 주관주의 확률 이론의 관점 : 지식의 상태 = 개인적인 믿음의 정도로 추정
  • 베이즈 기법 적용
    • ① 회귀분석모델에서 베이즈 기법의 적용
      • 추정치와 실제의 차이 = loss 를 최소화 하는 것이 목표
      • 기존 머신러닝) 경사하강법과 같은 알고리즘 → 점진적으로 학습 → 파라미터 찾아감
      • 베이지안 확률론 적용개념) 추정하고자 하는 계수와 절편을 값이 아니라 분포라고 가정
    • ② 분류에서 베이즈 기법의 적용
      • 나이브(순진) 베이즈 분류 : 특성들 사이의 독립을 가정하는 베이즈정리를 적용한 확률 분류기를 지칭
      • 나이브 베이즈는 단일 알고리즘이 아니라 여러 알고리즘을 이용해 훈련함
      • 나이브 베이즈 분류는 머신러닝을 적용하는데 광범위하게 쓰이며, 문서분류(스팸필터링) 등이 잇음
      • 나이브 베이즈의 장점
        • 지도학습환경에서 매우 효율적으로 훈련됨
        • 파라미터 추정위한 트레이닝 데이터의 양이 매우 작음
        • 간단한 디자인, 가정인데도 나이브베이즈분류는 복잡한 실제상황에서 잘 적용함
      • 이벤트 모델 : 특성의 분포에 대한 여러 가정들
        • 가우시안 나이브 베이즈 : 연속적인 데이터를 다룰 때
        • 다항분포 나이브 베이즈 : 다항분포
        • 베르누이 나이브 베이즈 : 이진변수 (성공/실패)

[딥러닝 분석]

  1. 딥러닝 분석의 개념
  • 인공신경망 ANN : Artificial Neural Network
    • 생물학의 신경망(뇌)를 통해 영감을 얻은 통계학적 학습 알고리즘
    • 시냅스 결합 → 네트워크를 형성한 인공뉴런(노드)이 학습을 통해 시냅스의 결합세기를 변화시켜 문제 해결능력을 가지는 모델 전반 = 인공신경망
    • 문제점 : 계산 속도 저하, 초기치의 의존성, 과적합 문제
  • 딥러닝
    • 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습의 알고리즘의 집합
    • 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야
    • 인공신경망의 단점을 극복
  • 딥러닝의 원리
    • 인공신경망은 하나의 은닉층에 은닉노드를 10개 100개 이런식으로 동일 레이어 내 수직으로 쭉 늘리기만 했는데, 딥러닝은 은닉층 자체를 여러 단계로 만들어 신경망을 구성 → 정확도 향상
      • 가중치 = 신경계 시냅스, 노드와의 연결계수
      • 활성함수 : 임계값을 이용, 노드의 활성화 여부를 결정, 입력신호가 일정크기 이상일 때만 신호를 전달하는 뉴런의 매커니즘 모방한 함수 (시그모이드, 렐루, 탄젠트 쌍곡선함수 등)
  1. 딥러닝 분석 알고리즘
  • ① 심층 신경망 DNN : Deep Neural Network
    • 입력층 - 여러개의 은닉층 - 출력층 으로 이뤄진 인공신경망
    • 복잡한 비선형 관계 모델링 가능
  • ② 합성곱 신경망 CNN : Convolutional Neural Network
    • 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류
    • 여러개의 합성곱계층과 그 위에 올려진 일반적인 인공신경망 계층으로 이루어짐 +) 가중치와 통합계층 pooling을 추가로 활용함
    • 2차원 구조의 입력데이터를 충분히 활용가능, 음성/영상/신호처리 분야에서도 좋은 성능
    • 오차 역전파를 통해 훈련가능, 다른 순방향 인공신경망보다 쉽게 훈련, 적은 수의 매개변수 사용
  • ③ 순환 신경망 RNN : Recurrent Neural Network
  • 인공신경망을 구성하는 유닛 사이의 연결이 순환적 구조를 갖는 신경망
  • 순방향과 다르게 임의의 입력을 처리할 때 신경망 내부의 메모리 활용가능 → 필기체 인식률 좋음
  • 시퀀스 데이터를 모델링 하기 위해 등장, 순환신경망은 ‘기억’★★★★을 갖고있음
    • 기억 = 시퀀스 전체를 요약하는 정보
    • 이전까지의 단어에 대한 기억을 가지고 새로운 단어를 이해하고, 이 과정을 새로운 단어마다 반복해서 ‘순환 신경망’이라는 이름이 붙음 (아무리 긴 시퀀스도 처리가능)
  • ④ 심층 신뢰 신경망 DBN : Deep Belief Network
    • 기계학습에서 사용되는 그래프 생성모형, 잠재변수(latent variable)의 다중계층으로 이루어진 심층 신경망, 계층간에 연결이 있지만, 계층 내 유닛끼리는 연결이 없다는 특징이 있음
    • 선행학습을 통해 초기 가중치를 학습한 후 역전파 혹은 다른 판별 알고리즘을 통해 가중치의 미조정 가능
    • 훈련용 데이터가 적을 때 매우 유용, 적을수록 가중치 초기값이 결과적인 모델에 미치는 영향이 세지기 때문
    • 선행학습된 가중치 초기값은 임의로 설정된 가중치 초기값에 비해 최적의 가중치에 가깝게 되고, 이를 통해 미조정 단계의 성능과 속도향상을 가능케함

[비정형 데이터 분석]

  1. 비정형 데이터 : 정의된 구조가 없으며, 고정된 필드에 저장되지 않는 데이터를 뜻함 ★
  • 데이터 세트가 아닌, 하나의 데이터가 수집데이터로 객체화되어있음
  • ex. 언어분석이 가능한 텍스트 데이터, 이미지, 동영상 멀티미디어 데이터 (정형화x)
    • 웹데이터는 html 형태로 반정형 데이터가 될수도 있어서 명확한 구분이 어려움
  • 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋으로 바꾸고, 정형데이터 구조로 만들 수있도록 아키텍쳐 수정 필요
  • 비정형 데이터는 데이터에 대한 분석이 선행되었기 때문에 목적론적 데이터 특징이 가장 잘 나타나는 데이터 → 수집이 가능하면, 여기에 가장 높은 잠재적 가치를 제공함
  1. 비정형 데이터 분석
  • ① 데이터 마이닝 : 대규모 데이터에서 통계적 규칙이나 패턴을 분석해 가치있는 정보를 추출하는 과정
    • 데이터 마이닝 = KDD = Knowledge-Discovery in Databases = 데이터베이스 속의 지식 발견
    • 통계학적 방법론) 탐색적 자료분석, 가설검정, 다변량분석, 시계열 분석, 일반선형모형
    • 기술적인 방법론) 데이터베이스에서 발전한 OLAP(온라인 분석처리), 인공지능 진영에서 발전한 SOM(자기조직화지도), 신경망, 전문가 시스템 등
    • 한계 : 비정형데이터를 정형화해서 상식적인 범위내에서 부분적인 데이터만 다룬다는 한계점 O
    • 적용분야
      • 분류 : 일정한 집단에 대한 특정 정의 → 분류 및 구분을 추론
      • 군집화 : 구체적인 특성을 공유하는 군집을 찾음, 사전에 특성에 대한 정보 x
      • 연관성 : 동시에 발생한 사건간의 관계 정의
      • 연속성 : 특정 기간에 걸쳐 발생하는 관계 규명
      • 예측 : 패턴을 기반으로 미래를 예측
  • ② 텍스트 마이닝 : 인간의 언어로 이루어진 비정형 데이터를 자연어 처리방식을 통해 정보를 추출하고, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에서 숨겨진 의미를 발견하는 기법
    • 자연어 처리 (NLP) : 인간의 언어현상을 기계를 통해 모사할 수 있도록 연구하고, 구현
      • 정보검색, QA시스템, 문서 자동분류, 신문 기사 클러스터링, 대화형 Agent
    • Text to Vector 기법 : 텍스트(단어, 문장)를 벡터(수치)로 변환 → 기계학습 알고리즘에 적용
      • Bag of Words (BoW) : 텍스트 = 단어의 집합으로 간주,
        • 각 단어의 등장 빈도를 계산해서 벡터로 표현
        • 문서 내에 각 단어의 등장 횟수나 이진 플래그(단어가 존재하냐 아니냐) 등을 벡터의 원소로 사용
        • 단어의 순서나 문맥은 고려하지 않고, 출현 빈도에만 집중
      • TF-IDF(Term Frequency-Inverse Document Frequency)
        • 단어의 빈도와 문서의 역문서 빈도를 고려해 단어를 벡터로 표현하는 기법
        • TF : 각 문서에서의 단어의 빈도, IDF : 전체 문서 집합에서의 단어의 등장빈도
        • 특정 문서에만 자주 등장하는 단어 = 중요 o , 전체 문서에서 두루두루 나오는 단어 = 중요 x
      • Word Embeddings (단어 임베딩)
        • 단어를 고정크기의 실수 벡터로 표현하는 방법
        • 단어 간의 의미적 유사성을 보존하려는 목적으로 개발, 단어간 관계를 벡터에서 표현 가능
        • ex. Word2Vec, GloVe, FastText 등
      • Sentence Embeddings (문장 임베딩)
        • 텍스트의 문장을 고정 크기의 벡터로 표현
        • 워드임베딩을 사용해 문장의 의미를 벡터크기로 변환 or 사전 훈련된 모델을 사용해 문장을 벡터로 표현
        • ex. Universal Sentence Encoder, BERT, GPT 등
  • ③ 웹 마이닝 : 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견
    • 정보 필터링, 경쟁자의 특허, 기술개발 등의 감시, 이용도 분석을 위한 웹 액세스 로그의 마이닝, 브라우징(고객이 웹에서의 이동경로 탐색) 지원
  • ④ 오피니언 마이닝 (=감정분석) : 주관적인 의견, 감정과 태도도 분석
    • 포털 게시판, 블로그, 쇼핑몰 웹문서
  • ⑤ 리얼리티 마이닝 : 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출
    • 통화/ 메시징 등의 커뮤니케이션 데이터, GPS/WiFi 등 위치 데이터 ⇒ 사회적 행위를 마이닝, 사용자 행동 모델링, 라이프 로그 얻어내기
    • 사회과학, 도시계획, 건강 및 복지, 광고 및 마케팅에서 활용

[앙상블 분석]

  • 앙상블 기법 : 여러개 학습모형을 만들고 모형들을 조합해서 하나의 최종 모형을 만드는 개념
    • 다양한 약학습기를 통해 강학습기를 만들어가는 과정
      • 약학습기 = 약분류기 : 무작위 선정이 아니라 성공확률이 높은, 오차율이 50% 이하인 학습규칙
        • 결과도출에 실패 가능성을 어느정도 내포한 여러 학습기준
        • max_depth=2인 아주 약한 모델들
      • 강학습기 = 강분류기 : 약학습기로 부터 만들어내는 강력한 학습규칙
    • 앙상블 : 다양한 약학습기를 통해 강학습기를 만들어가는 과정
  • 장점 : 정확성 향상, 과적합 방지, 분산 감소(다수의 결과를 취하기 때문에 전체적인 예측 오차를 줄일 수 있음), 다양한 모델 적용가능
  • 단점 : 계산 복잡성 증가, 해석 어려움, 구현 복잡성
  • ① 보팅 Voting : 투표방식, 배깅과 투표방식이라는 점에서 유사하지만 사용법에서 차이 O
    • 서로 다른 여러 학습 모델을 조합해서 사용 🔛 배깅 : 같은 알고리즘 내에서 다른 샘플 데이터 조합 사용
    • 보팅은 서로 다른 알고리즘이 도출해낸 결과물에 대해서 최종 투표 → 결정
      • 하드 보팅 : 결과물에 대한 최종 값을 투표해서 결정
      • 소프트 보팅: 최종결과물이 나올 확률값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출
  • ② 부스팅 Boosting : 가중치를 활용해 연속적인 약학습기 생성 → 이를 통해 강학습기 만드는 방법
    • 순차적인 학습을 하며 가중치를 부여하고 오차를 보완해나감
    • 순차적이라 병렬처리는 어려움, 그래서 학습시간이 오래걸리는 단점 있음
  • ③ 배깅 Bagging(Bootstrap Aggregation) : 샘플을 여러번 뽑아 각 모델을 학습시켜 결과물을 집계
    • 복원랜덤 샘플링으로 부트스트랩을 하고, 각각 학습된 모델의 결과를 평균내거나 투표해서 최종 결과값 구함
    • 배깅이 각 모델의 분산을 감소시킬수는 있지만, 편향을 줄여줄수는 없음
    • 배깅을 활용한 모델이 바로 랜덤 포레스트
  • ④ 스태킹 Stacking : 여러개의 다른 모델을 조합해 예측 성능 향상
    • 스태킹은 개별 모델들을 학습하고 이러한 모델들의 예측 결과를 다시 하나의 메타 모델(메타-학습기)에 입력으로 제공하여 최종 예측을 수행하는 방법
    • 다양한 모델의 예측결과를 결합하니까 모델의 다양성이 중요
    • 과적합을 방지하기 위해 교차검증을 사용해 개별 모델 학습하고 예측 성능을 평가하는게 일반적

[비모수 통계]

  • 비모수 통계 : 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석
    • 변인의 척도가 명명척도나 서열척도일 때, 표본 수가 적을 때, 모집단이 정규분포가 아닐 때
    • 오히려 가정을 만족시키지 못했는데 모수통계분석을 진행해서 생길 오류를 줄일 수 있음
    • 비교적 신속하고 쉽게 통계량을 구할 수 있고, 결과해석도 쉬움
  • 모수통계 : 안다고 가정하고 통계적 검정 및 추론을 하는 것
  • 부호검정 Sign Test : 관측치들 간에 같다 혹은 크거나 작다 라는 주장이 사실인지 아닌지 검정
    • 데이터의 순서나 크기에 대한 가정은 X, 단지 관측값들의 부호만 활용해서 검정 수행
  • 윌콕슨 부호순위 검정 : 부호뿐만 아니라 관측치 간 차이의 크기 순위까지 고려
    • 대응표본, 순위 데이터에 사용
    • 동일한 개체 또는 짝이 맺어진 개체에 대해 두 관측값을 측정한 경우에 사용
    • ex. 전후 실험 결과, 약 투여 전후 체온 변화 비교
  • 만-위트니 검정 : 두 집단 간의 중심위치를 비교하기 위해 사용하는 검정방법
    • 독립표본 데이터에 사용, 두 개의 독립된 그룹의 관측값을 비교할 때
    • 두 그룹간의 위치적인 차이에 대한 가설검정
    • ex. 두 집단의 성적 비교, 약의 효과 비교
  • 크루스칼-왈리스 검정 : 3개 이상의 집단의 중앙값 차이
    • 독립표본 데이터에 사용, 3개이상의 독립된 그룹의 관측값 비교
    • 그룹간의 순위차이에 대한 가설검정
    • ex. 세개이상의 약의 효과 비교, 다수 집단의 성적 비교

[교차검증]

  • Holdout 교차검증 : 전체 데이터를 학습 데이터, 테스트 데이터, 검증데이터로 나누는 기법

[ROC 곡선]

  • X(특이도), Y(민감도) 가 모두 0,1 범위
    • 민감도 = 재현율 = 실제 true인 데이터를 true분류한 비율
    • 특이도 = 실제 false인 데이터를 false분류한 비율
  • ROC 곡선의 하단면적을 AUC라고 하고 이진분류기의 성능을 평가하는 주요지표
  • ROC곡선은 FPR(1-특이도)이 변할 때, TPR(민감도, 재현율)이 어떻게 변하는지 보여주는 곡선

[오답노트]

  • Causal Analysis
    • 데이터 칼럼을 모두 독립변수 X로 정의하고 시작
    • 어떠한 사건의 원인을 알지만 원인이 되는지 아닌지를 의심이 되는 입력을 따로 정의 가능
    • 어떤 현상 자체 Y를 스스로 정의할 수 있는 방법론
    • 인접행렬을 상호연결성을 나타내는 지표로 사용