통계 - 회귀분석

Posted Jul 28, 2025 Updated Jul 28, 2025

By mcube

5 min read

통계 - 회귀분석

📚 회귀분석(Regression)

회귀분석은 엑셀의 데이터 분석 도구에서도 수행할 수 있다.
“데이터 → 데이터 분석 → 회귀” 메뉴를 통해 단순 회귀, 다중 회귀 모두 가능하다.

회귀분석(regression analysis)은 연속형 종속변수 ( y )가
하나 이상의 독립변수 ( x )에 의해 어떻게 설명되는지를 분석하는 기법이다.
목적은 회귀선 (예측 선)을 구하는 것.

예:
( y = 3x + 5 )

단순 선형 회귀:
독립변수가 하나일 경우
$y = \beta_0 + \beta_1 x + \varepsilon$
다중 선형 회귀:
독립변수가 여러 개인 경우
$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon$

잔차 (residual)
$e_i = y_i - \hat{y}_i$
각 관측값에서 추정된 회귀선까지의 거리
잔차제곱합 (RSS)
$\text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2$
결정계수 $(R^2)$
회귀선이 실제 데이터의 분산을 얼마나 잘 설명하는지를 나타내는 지표
$R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} \quad \text{(TSS: 총제곱합)}$
$(R^2)$ 값이 1에 가까울수록 설명력이 높다
추정값의 표준오차 (Standard Error)
회귀계수의 불확실성을 나타냄. 작을수록 추정된 회귀선이 더 신뢰할 수 있다
다중공선성 (Multicollinearity)
다중 회귀에서 설명변수들 간 상관관계가 높을 경우 발생
학습 결과가 불안정하거나 이상하게 나올 수 있다
조정된 결정계수 (Adjusted $R^2$)
설명변수 개수를 보정한 결정계수
$\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)$
(( n ): 표본 수, ( p ): 설명변수 수)

로지스틱 회귀는
로짓(logit), 즉 성공 확률 ( p )의 로그 오즈
$( \log\left(\frac{p}{1 - p}\right) )$를
예측 변수들의 선형함수로 모델링하는 기법이다.

\[\log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_q x_q\]

활용 방식:

odds (승산률)
사건이 일어날 확률에 대한 비율
$\text{odds} = \frac{p}{1 - p} = \exp(\beta^\top x)$
모수 (parameter)
모델이 학습을 통해 추정하는 값.
로지스틱 회귀에서는 계수 $( \beta )$가 이에 해당한다
log-likelihood
주어진 $( \beta )$로 관측된 데이터가 나올 가능성의 로그값
$\log L(\beta) = \sum_{i=1}^{n} \left[ y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i) \right]$
최대우도법 (MLE)
log-likelihood를 최대화하는 $( \beta )$를 찾는 방법
경사하강법 등 최적화 기법을 사용한다
승산비 (odds ratio)
두 집단의 승산을 비교한 값
예: 전문직 교육 고객의 대출 승인 승산 / 대학 교육 고객의 대출 승인 승산

This post is licensed under CC BY 4.0 by the author.