Post

통계 - 회귀분석

통계 - 회귀분석

📚 회귀분석(Regression)


0. 엑셀로도 분석 가능

회귀분석은 엑셀의 데이터 분석 도구에서도 수행할 수 있다.
“데이터 → 데이터 분석 → 회귀” 메뉴를 통해 단순 회귀, 다중 회귀 모두 가능하다.


1. 선형 회귀분석 (Linear Regression)

무엇인가?

회귀분석(regression analysis)은 연속형 종속변수 ( y )가
하나 이상의 독립변수 ( x )에 의해 어떻게 설명되는지를 분석하는 기법이다.
목적은 회귀선 (예측 선)을 구하는 것.

예:
( y = 3x + 5 )

  • ( x ): 독립변수 (설명변수, predictor)
  • ( y ): 종속변수 (반응변수, response)

회귀모형의 종류 (변수 개수 기준)

  • 단순 선형 회귀:
    독립변수가 하나일 경우
    \(y = \beta_0 + \beta_1 x + \varepsilon\)

  • 다중 선형 회귀:
    독립변수가 여러 개인 경우
    \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon\)


핵심 개념 정리

  • 잔차 (residual)
    \(e_i = y_i - \hat{y}_i\)
    각 관측값에서 추정된 회귀선까지의 거리

  • 잔차제곱합 (RSS)
    \(\text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2\)

  • 결정계수 $(R^2)$
    회귀선이 실제 데이터의 분산을 얼마나 잘 설명하는지를 나타내는 지표
    \(R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} \quad \text{(TSS: 총제곱합)}\)
    $(R^2)$ 값이 1에 가까울수록 설명력이 높다

  • 추정값의 표준오차 (Standard Error)
    회귀계수의 불확실성을 나타냄. 작을수록 추정된 회귀선이 더 신뢰할 수 있다

  • 다중공선성 (Multicollinearity)
    다중 회귀에서 설명변수들 간 상관관계가 높을 경우 발생
    학습 결과가 불안정하거나 이상하게 나올 수 있다

  • 조정된 결정계수 (Adjusted $R^2$)
    설명변수 개수를 보정한 결정계수
    \(\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)\)
    (( n ): 표본 수, ( p ): 설명변수 수)


2. 로지스틱 회귀분석 (Logistic Regression)

무엇인가?

로지스틱 회귀는
로짓(logit), 즉 성공 확률 ( p )의 로그 오즈
$( \log\left(\frac{p}{1 - p}\right) )$를
예측 변수들의 선형함수로 모델링하는 기법이다.

\[\log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_q x_q\]

어디에 쓰는가? (예시)

  • 예측 대상: 고객이 대출 제안을 수락할지 여부 (이진 분류)
  • 설명 변수 (X): 인구통계학 정보(나이, 소득 등), 고객 관계 정보(예: 증권 계좌 유무)
  • 종속 변수 (Y): 대출 제안 수락 여부 (0 = 거절, 1 = 수락)

활용 방식:

  1. 각 관측값에 대해 특정 클래스의 확률을 추정
  2. 설정한 임계값(예: 0.5)을 기준으로 분류 수행

용어 정리

  • odds (승산률)
    사건이 일어날 확률에 대한 비율
    \(\text{odds} = \frac{p}{1 - p} = \exp(\beta^\top x)\)

  • 모수 (parameter)
    모델이 학습을 통해 추정하는 값.
    로지스틱 회귀에서는 계수 $( \beta )$가 이에 해당한다

  • log-likelihood
    주어진 $( \beta )$로 관측된 데이터가 나올 가능성의 로그값
    \(\log L(\beta) = \sum_{i=1}^{n} \left[ y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i) \right]\)

  • 최대우도법 (MLE)
    log-likelihood를 최대화하는 $( \beta )$를 찾는 방법
    경사하강법 등 최적화 기법을 사용한다

  • 승산비 (odds ratio)
    두 집단의 승산을 비교한 값
    예: 전문직 교육 고객의 대출 승인 승산 / 대학 교육 고객의 대출 승인 승산


This post is licensed under CC BY 4.0 by the author.

Trending Tags