통계 - 회귀분석
📚 회귀분석(Regression)
0. 엑셀로도 분석 가능
회귀분석은 엑셀의 데이터 분석 도구에서도 수행할 수 있다.
“데이터 → 데이터 분석 → 회귀” 메뉴를 통해 단순 회귀, 다중 회귀 모두 가능하다.
1. 선형 회귀분석 (Linear Regression)
무엇인가?
회귀분석(regression analysis)은 연속형 종속변수 ( y )가
하나 이상의 독립변수 ( x )에 의해 어떻게 설명되는지를 분석하는 기법이다.
목적은 회귀선 (예측 선)을 구하는 것.
예:
( y = 3x + 5 )
- ( x ): 독립변수 (설명변수, predictor)
- ( y ): 종속변수 (반응변수, response)
회귀모형의 종류 (변수 개수 기준)
단순 선형 회귀:
독립변수가 하나일 경우
\(y = \beta_0 + \beta_1 x + \varepsilon\)다중 선형 회귀:
독립변수가 여러 개인 경우
\(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon\)
핵심 개념 정리
잔차 (residual)
\(e_i = y_i - \hat{y}_i\)
각 관측값에서 추정된 회귀선까지의 거리잔차제곱합 (RSS)
\(\text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2\)결정계수 $(R^2)$
회귀선이 실제 데이터의 분산을 얼마나 잘 설명하는지를 나타내는 지표
\(R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} \quad \text{(TSS: 총제곱합)}\)
$(R^2)$ 값이 1에 가까울수록 설명력이 높다추정값의 표준오차 (Standard Error)
회귀계수의 불확실성을 나타냄. 작을수록 추정된 회귀선이 더 신뢰할 수 있다다중공선성 (Multicollinearity)
다중 회귀에서 설명변수들 간 상관관계가 높을 경우 발생
학습 결과가 불안정하거나 이상하게 나올 수 있다조정된 결정계수 (Adjusted $R^2$)
설명변수 개수를 보정한 결정계수
\(\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)\)
(( n ): 표본 수, ( p ): 설명변수 수)
2. 로지스틱 회귀분석 (Logistic Regression)
무엇인가?
로지스틱 회귀는
로짓(logit), 즉 성공 확률 ( p )의 로그 오즈
$( \log\left(\frac{p}{1 - p}\right) )$를
예측 변수들의 선형함수로 모델링하는 기법이다.
어디에 쓰는가? (예시)
- 예측 대상: 고객이 대출 제안을 수락할지 여부 (이진 분류)
- 설명 변수 (X): 인구통계학 정보(나이, 소득 등), 고객 관계 정보(예: 증권 계좌 유무)
- 종속 변수 (Y): 대출 제안 수락 여부 (0 = 거절, 1 = 수락)
활용 방식:
- 각 관측값에 대해 특정 클래스의 확률을 추정
- 설정한 임계값(예: 0.5)을 기준으로 분류 수행
용어 정리
odds (승산률)
사건이 일어날 확률에 대한 비율
\(\text{odds} = \frac{p}{1 - p} = \exp(\beta^\top x)\)모수 (parameter)
모델이 학습을 통해 추정하는 값.
로지스틱 회귀에서는 계수 $( \beta )$가 이에 해당한다log-likelihood
주어진 $( \beta )$로 관측된 데이터가 나올 가능성의 로그값
\(\log L(\beta) = \sum_{i=1}^{n} \left[ y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i) \right]\)최대우도법 (MLE)
log-likelihood를 최대화하는 $( \beta )$를 찾는 방법
경사하강법 등 최적화 기법을 사용한다승산비 (odds ratio)
두 집단의 승산을 비교한 값
예: 전문직 교육 고객의 대출 승인 승산 / 대학 교육 고객의 대출 승인 승산