Post

통계 - 연속 확률분포

통계 - 연속 확률분포

📚 연속 확률분포(Discrete)


ND (Normal Distribution, 정규분포)

보편적인 분포라서 맨 앞에 Normal이 붙었다

평균 근처에 학생들이 몰려 있고, 만점이나 빵점은 흔치 않다.
이처럼 ‘중간이 많고 양끝이 드문’ 데이터를 그래프로 그리면
종(bell)처럼 생긴 곡선이 나오는데, 이것이 바로 정규분포($\mathcal{N}$)이다.


정규분포($\mathcal{N}$) 사진

정규분포 예시

이렇게 종 모양처럼 생겨서 벨 곡선(bell curve)이라고 부릅니다.
(중간이 가장 높고, 양 옆으로 갈수록 낮아짐)


  • 평균($\mu$)이 그래프에서 종 곡선의 정가운데가 되고,

  • 표준편차($\sigma$): 평균 근처에 얼마나 많이 몰려 있느냐, 아니면 퍼져 있느냐를 나타냄

    • 모두가 170cm에 붙어 있다면 → 표준편차가 작다 (날씬한 종!)
    • 어떤 애는 130cm, 어떤 애는 210cm → 표준편차가 크다 (뚱뚱한 종!)

68-95-99.7 법칙

정규분포($\mathcal{N}$)에서는 다음과 같은 특징이 있다:

\[\begin{aligned} \text{평균} \pm 1\sigma &\quad \rightarrow \quad \text{전체의 약 68\%} \\ \text{평균} \pm 2\sigma &\quad \rightarrow \quad \text{전체의 약 95\%} \\ \text{평균} \pm 3\sigma &\quad \rightarrow \quad \text{전체의 약 99.7\%} \end{aligned}\]

“평균에서 $3\sigma$ 이상 멀리 있는 값은 정말 희귀하다!”
이런 식으로 표현이 가능하다.


표준정규분포 (Standard Normal Distribution)

정규분포 중에서 평균이 0, 표준편차가 1인 특별한 분포를 표준정규분포라고 한다.

  • 기호: $Z \sim \mathcal{N}(0, 1)$
  • 확률밀도함수(PDF): \(f(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2}\)
  • 특징:
    • 평균이 0, 표준편차가 1
    • 모든 정규분포는 $Z$-score로 변환하면 표준정규분포가 됨
    • 표준정규분포표(누적확률표)를 통해 확률을 쉽게 찾을 수 있음

표준정규분포표

$z$0.000.010.020.030.040.050.060.070.080.09
0.00.50000.50400.50800.51200.51600.51990.52390.52790.53190.5359
0.10.53980.54380.54780.55170.55570.55960.56360.56750.57140.5753
0.20.57930.58320.58710.59100.59480.59870.60260.60640.61030.6141
0.30.61790.62170.62550.62930.63310.63680.64060.64430.64800.6517
0.40.65540.65910.66280.66640.67000.67360.67720.68080.68440.6879
0.50.69150.69500.69850.70190.70540.70880.71230.71570.71900.7224
0.60.72570.72910.73240.73570.73890.74220.74540.74860.75170.7549
0.70.75800.76110.76420.76730.77040.77340.77640.77940.78230.7852
0.80.78810.79100.79390.79670.79950.80230.80510.80780.81060.8133
0.90.81590.81860.82120.82380.82640.82890.83150.83400.83650.8389
1.00.84130.84380.84610.84850.85080.85310.85540.85770.85990.8621
1.10.86430.86650.86860.87080.87290.87490.87700.87900.88100.8830
1.20.88490.88690.88880.89070.89250.89440.89620.89800.89970.9015
1.30.90320.90490.90660.90820.90990.91150.91310.91470.91620.9177
1.40.91920.92070.92220.92360.92510.92650.92790.92920.93060.9319
1.50.93320.93450.93570.93700.93820.93940.94060.94180.94290.9441
1.60.94520.94630.94740.94840.94950.95050.95150.95250.95350.9545
1.70.95540.95640.95730.95820.95910.95990.96080.96160.96250.9633
1.80.96410.96490.96560.96640.96710.96780.96860.96930.96990.9706
1.90.97130.97190.97260.97320.97380.97440.97500.97560.97610.9767
2.00.97720.97780.97830.97880.97930.97980.98030.98080.98120.9817
2.10.98210.98260.98300.98340.98380.98420.98460.98500.98540.9857
2.20.98610.98640.98680.98710.98750.98780.98810.98840.98870.9890
2.30.98930.98960.98980.99010.99040.99060.99090.99110.99130.9916
2.40.99180.99200.99220.99250.99270.99290.99310.99320.99340.9936
2.50.99380.99400.99410.99430.99450.99460.99480.99490.99510.9952
2.60.99530.99550.99560.99570.99590.99600.99610.99620.99630.9964
2.70.99650.99660.99670.99680.99690.99700.99710.99720.99730.9974
2.80.99740.99750.99760.99770.99770.99780.99790.99790.99800.9981
2.90.99810.99820.99820.99830.99840.99840.99850.99850.99860.9986
3.00.99870.99870.99870.99880.99880.99890.99890.99890.99900.9990

Student’s T-Distribution (T분포)

샘플 수가 적고 분산도 모를 때 평균을 비교하기 위한 분포
→ 정규분포처럼 생겼지만 꼬리가 더 두꺼워서 작은 표본에 유리함

  • 언제 쓰나?
    • 표본 수가 작고 ($n < 30$ 정도)
    • 모집단 분산 $\sigma^2$를 모름
    • 평균이 어떤 값과 통계적으로 다른지 검정할 때
  • 통계량 공식

    \[t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}}, \quad t \sim t_{n - 1}\]

    예: 표본평균 $\bar{X} = 5.2$, 표본표준편차 $S = 1.5$, 표본크기 $n = 10$,
    비교 대상 $\mu_0 = 5$일 때:

    \[t = \frac{5.2 - 5}{1.5 / \sqrt{10}} \approx 0.42\]

    → 이 $t$값이 통계적으로 유의한지 t-분포표나 p-value로 확인

  • 기댓값: 0 (단, $n > 1$)
  • 분산: $\dfrac{n - 1}{n - 3}$ (단, $n > 2$)

표본 수가 많아질수록 정규분포에 가까워진다
평균 비교를 위한 t-검정의 핵심 분포


Exponential Distribution (지수분포)

“다음 사건이 언제 일어날까?”를 확률로 표현한 분포
예:

  • 버스가 언제 도착할까?
  • 다음 손님은 몇 분 뒤에 올까?

  • 매개변수: $\lambda > 0$
    → 단위 시간당 평균 몇 번 일어나는지 (발생률)

  • 확률밀도함수(PDF):

    \[f(x;\lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \\ 0 & x < 0 \end{cases}\]

    → $x$분이 지났을 때 아직 사건이 안 일어났을 확률
    \(P(X > x) = e^{-\lambda x}\)
    → 시간이 지날수록 점점 사건이 일어날 확률이 줄어든다.

  • 예시
    어떤 동네 버스는 평균 10분마다 1대씩 온다.
    즉, $\lambda = \frac{1}{10} = 0.1$

    “7분 안에 버스가 올 확률”은?

    \[P(X \le 7) = 1 - e^{-0.1 \times 7} = 1 - e^{-0.7} \approx 0.5034\]

    → 기다린 지 7분이 되었을 때, 절반 정도의 확률로 버스가 도착했다는 의미!

  • 기댓값: $\operatorname{E}[X] = \frac{1}{\lambda}$
    → 평균 대기 시간
  • 분산: $\operatorname{Var}(X) = \frac{1}{\lambda^2}$

  • 특징
    • 메모리리스 (기억 없음)
      → 이미 10분 기다렸다고 해도, 앞으로 또 10분 기다릴 수도 있다.
      → 과거의 대기 시간은 미래에 아무 영향이 없다!
    • 포아송 분포와 연결
      • 포아송: “1시간 동안 몇 건 일어날까?”
      • 지수분포: “다음 사건까지 얼마나 걸릴까?”

“포아송은 개수를, 지수는 시간을 다룬다.”
둘은 사건의 흐름을 입체적으로 바라보는 두 시선이다.


Gamma Distribution (감마분포)

지수분포 여러 개를 더하면 감마분포가 된다!
예를 들어, 고객이 올 때까지의 시간은 지수분포,
3명 고객이 올 때까지의 총 대기 시간감마분포를 따른다.

  • 모수:
    • $k$: 모양(shape), 몇 번 기다리는지 → 고객 수
    • $\theta$: 평균 대기 시간 (scale)
  • 확률밀도함수 (PDF): \(f(x; k, \theta) = \frac{1}{\Gamma(k)\,\theta^k}\,x^{k-1}e^{-x/\theta}, \quad x > 0\)

  • 예시
    평균적으로 3분마다 고객이 오고($\theta = 3$),
    2번째 고객까지 기다릴 때($k = 2$),
    4분이 지나 있을 확률 밀도는?

    \[f(4; 2, 3) = \frac{1}{\Gamma(2)\cdot 3^2} \cdot 4^{1} \cdot e^{-4/3} = \frac{4}{9} \cdot e^{-1.33\ldots} \approx 0.105\]

    → 즉, “딱 4분째에 두 번째 고객이 도착할 가능성”이 가장 높은 시점은 아님.
    → 감마분포는 첫 번째, 두 번째, 세 번째… 고객이 오기까지의 누적 시간을 모델링!

  • 기댓값: $\operatorname{E}[X]=k\theta$
  • 분산: $\operatorname{Var}(X)=k\theta^2$

Weibull Distribution (웨이블 분포)

“시간이 지날수록 고장날 확률이 바뀐다면?”
웨이블 분포는 고장률이 시간에 따라 달라질 수 있는 상황을 모델링하는 데 쓰인다.
기계 부품, 전자제품, 사람의 수명처럼 — 시간이 핵심인 문제에 딱이다.

  • 모수
    • $k$: 형태(shape) — 시간이 지남에 따라 고장 확률이 어떻게 변하는지
    • $\lambda$: 척도(scale) — 고장이 대체로 언제쯤 일어나는지 조절 (시간 단위 느낌)
  • 확률밀도함수(PDF)
    \(f(x; k, \lambda) = \frac{k}{\lambda} \left( \frac{x}{\lambda} \right)^{k-1} e^{-(x/\lambda)^k}, \quad x \ge 0\)

  • 예시
    어떤 부품이 대체로 5시간쯤에 고장 나고,
    시간이 갈수록 고장 확률이 점점 증가한다면:
    $k = 2$, $\lambda = 5$라고 두고 $x = 3$시간일 때의 고장 가능성은:

    \[f(3; 2, 5) = \frac{2}{5} \cdot \left(\frac{3}{5}\right)^1 \cdot e^{-(3/5)^2} \approx 0.166\]
  • 기댓값 (평균 수명):
    \(\operatorname{E}[X] = \lambda \cdot \Gamma\left(1 + \frac{1}{k}\right)\)

  • 분산:
    $$ \operatorname{Var}(X) = \lambda^2 \left[ \Gamma\left(1 + \frac{2}{k}\right)
    • \left(\Gamma\left(1 + \frac{1}{k}\right)\right)^2 \right] $$
  • 형태 모수 $k$의 의미
    • $k < 1$ → 시간이 지날수록 고장 확률이 줄어듦 (초기 불량 많음!)
    • $k = 1$ → 고장 확률이 항상 일정지수분포랑 같음
    • $k > 1$ → 시간이 지날수록 고장 확률이 점점 증가 (노화하는 부품)
  • 사용 사례
    • 하드디스크가 언제 죽을지
    • 사람이 약 복용 후 효과가 나타나는 시간
    • 전자제품의 고장률 분석
    • 생존 분석, 보험 수명 모델링 등

웨이블 분포는 “언제 고장날지 모른다”는 상황에서
시간과 위험의 관계를 수식으로 말해주는 분포다.


Beta Distribution (베타분포)

“확률도 불확실하다면, 확률로 생각하자!”
어떤 사건의 성공 확률 $p$를 모르고, 그 $p$가 어떤 값일지 확률분포로 나타낸 것이 베타분포다.
(예: 이 동전이 앞면이 나올 확률은 과연 얼마일까?)

  • 모수: $\alpha$ (앞면 나온 횟수 + 1), $\beta$ (뒷면 나온 횟수 + 1)

  • 확률밀도함수(PDF): \(f(p) = \frac{1}{B(\alpha, \beta)}\,p^{\alpha - 1}(1 - p)^{\beta - 1}\)

  • 예시
    동전을 4번 던져 앞면 1번, 뒷면 3번 나왔다면,
    베타분포의 모수는 $\alpha = 1 + 1 = 2$, $\beta = 3 + 1 = 4$

    \[f(p) = \frac{1}{B(2,4)}\,p(1 - p)^3 = 60\,p(1 - p)^3\]

    → $p$가 0.2~0.4 정도일 가능성이 가장 높고,
    → 극단값($p=0$ 또는 $1$)은 가능성이 낮다.

  • 기댓값: $\displaystyle \frac{\alpha}{\alpha + \beta}$
    → 이 예시에선 $\frac{2}{6} = 0.333$
  • 분산: $\displaystyle \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}$

  • 특징
    • $p \in (0,1)$ 구간에서 정의됨
    • 베르누이/이항분포의 사전분포(prior)로 자주 등장
    • $\alpha = \beta = 1$이면 균등분포

This post is licensed under CC BY 4.0 by the author.

Trending Tags