통계 - 이산 확률분포
📚 이산 확률분포(Discrete)
Bernoulli Distribution (베르누이분포)
결과가 딱 두 가지(성공 또는 실패)인 실험을 모델링하는 분포
→ 예: 동전 던지기, 이메일이 스팸인지 아닌지
- 표본공간:
\(\{0, 1\}\)- 보통 $1$: 성공, $0$: 실패로 표현 (반대로 해도 무방)
- 모수
- $p$: 성공할 확률 ($0 \le p \le 1$)
확률질량함수 (PMF)
\(P(X = x) = \begin{cases} p & \text{if } x = 1 \\ 1 - p & \text{if } x = 0 \end{cases}\)예: 성공 확률 $p = 0.8$이라면
- $P(X = 1) = 0.8$ (성공)
- $P(X = 0) = 0.2$ (실패)
기댓값: $\operatorname{E}[X] = p$,
분산: $\operatorname{Var}(X) = p(1 - p)$예: $p = 0.8$일 때
- $\operatorname{E}[X] = 0.8$
- $\operatorname{Var}(X) = 0.8 \cdot 0.2 = 0.16$
가장 단순한 확률 분포
이항분포 $\text{Bin}(n, p)$의 특수한 경우 ($n = 1$)
로지스틱 회귀나 이진 분류 모델의 출력값도 이 분포를 따른다
Binomial Distribution (이항분포)
성공/실패처럼 결과가 둘뿐인 실험을 $n$번 반복했을 때,
성공이 몇 번 나오는지를 다루는 분포
→ 예: 동전을 10번 던졌을 때 앞면이 몇 번 나올까?
- 모수
- $n$: 시행 횟수
- $p$: 한 번의 시행에서 성공할 확률
가능한 값
\(\{0, 1, 2, \dots, n\}\)확률질량함수 (PMF)
\[P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \dots, n\]
성공이 $k$번 나올 확률:예: $n = 10$, $p = 0.3$일 때
\[P(X = 3) = \binom{10}{3} \cdot (0.3)^3 \cdot (0.7)^7 \approx 0.2668\]
정확히 3번 성공할 확률은:- 기댓값: $\operatorname{E}[X] = np$
분산: $\operatorname{Var}(X) = np(1 - p)$
예: $n = 10$, $p = 0.3$일 때
- $\operatorname{E}[X] = 10 \cdot 0.3 = 3$
- $\operatorname{Var}(X) = 10 \cdot 0.3 \cdot 0.7 = 2.1$
- $n = 1$이면 베르누이 분포
- 시험 점수, 품질 검사, A/B 테스트 등에서 자주 등장
- $n$이 충분히 크면 정규분포로 근사,
$p$가 작고 $n$이 클 땐 포아송분포로도 근사 가능
Geometric Distribution (기하분포)
처음 성공할 때까지 몇 번 시도해야 하는지를 나타내는 분포
→ 성공 확률 $p$인 시행을 계속 반복
- 언제 쓰나?
- 성공 확률 $p$인 실험을 성공할 때까지 반복
- 첫 성공이 몇 번째 시도에서 일어나는지 알고 싶을 때
확률질량함수 (PMF)
\[P(X = k) = (1 - p)^{k - 1} p, \quad k = 1, 2, 3, \dots\]
$k$번째 시도에서 처음 성공할 확률:예: 성공 확률 $p = 0.2$일 때
\[P(X = 3) = (0.8)^2 \cdot 0.2 = 0.128\]
3번째 시도에 처음 성공할 확률은:- 기댓값: $\operatorname{E}[X] = \dfrac{1}{p}$
분산: $\operatorname{Var}(X) = \dfrac{1 - p}{p^2}$
예: $p = 0.2$라면
- $\operatorname{E}[X] = \dfrac{1}{0.2} = 5$
- $\operatorname{Var}(X) = \dfrac{0.8}{0.04} = 20$
- 특징
- 실패가 $k - 1$번 이어지고, $k$번째에 첫 성공
- 기억 없음 성질: \(P(X > s + t \mid X > s) = P(X > t)\) → 지금까지 실패했더라도 앞으로 성공까지 걸리는 시도 수는 그대로
처음 성공까지의 시도 횟수를 모델링하는 대표 분포
음이항분포의 특수한 경우 ($r = 1$)
Negative Binomial Distribution (음이항분포)
성공이 $r$번 나올 때까지 실패가 몇 번 나오는지를 다루는 분포
→ 이항분포는 성공 횟수를 본다면,
→ 음이항분포는 성공 $r$번까지 걸린 실패 수에 초점
- 모수
- $r$: 목표로 하는 성공 횟수
- $p$: 한 번 시행에서 성공할 확률
확률질량함수 (PMF)
\[P(X = k) = \binom{k + r - 1}{k} \cdot p^r \cdot (1 - p)^k\]
성공 $r$번이 나올 때까지 실패가 $k$번 일어날 확률:예: 성공 확률 $p = 0.4$, 목표 성공 횟수 $r = 3$일 때
\[P(X = 2) = \binom{4}{2} \cdot (0.4)^3 \cdot (0.6)^2 = 6 \cdot 0.064 \cdot 0.36 \approx 0.1382\]
성공이 3번 나올 때까지 실패가 정확히 2번일 확률은:- 기댓값: $\operatorname{E}[X] = \dfrac{r(1 - p)}{p}$
분산: $\operatorname{Var}(X) = \dfrac{r(1 - p)}{p^2}$
예: $p = 0.4$, $r = 3$일 때
- $\operatorname{E}[X] = \dfrac{3(0.6)}{0.4} = 4.5$
- $\operatorname{Var}(X) = \dfrac{3(0.6)}{0.16} = 11.25$
실패 횟수를 세는 분포 —
$r = 1$이면 기하분포(Geometric distribution)가 된다
Hypergeometric Distribution (초기하분포)
복원 없이 뽑는 상황에서의 확률 분포
→ 뽑은 걸 다시 넣지 않으니 확률이 매번 바뀜
→ 카드 게임, 뽑기 추첨, 재고 검사 등에 자주 등장
- 모수
- $N$: 전체 항목 수
- $K$: 그중 성공(또는 원하는 항목) 개수
- $n$: 뽑는 개수 (표본 크기)
확률질량함수 (PMF) — $k$개 성공할 확률:
\[P(X = k) = \frac{\binom{K}{k} \cdot \binom{N - K}{n - k}}{\binom{N}{n}}\]예: 총 $N = 20$개 부품 중 $K = 5$개가 불량품일 때
\[P(X = 2) = \frac{\binom{5}{2} \cdot \binom{15}{2}}{\binom{20}{4}} = \frac{10 \cdot 105}{4845} \approx 0.2168\]
무작위로 $n = 4$개를 뽑아 정확히 $k = 2$개가 불량일 확률은
이항분포와의 차이점
- 이항분포: 복원 추출 → 확률이 일정
- 초기하분포: 비복원 추출 → 뽑을수록 확률이 바뀜
Multinomial Distribution (다항분포)
결과가 여러 가지($k$가지)인 시행을 $n$번 반복했을 때,
각 결과가 몇 번 나왔는지를 다루는 분포
→ 이항분포의 다면체 버전
- 모수
- $n$: 총 시행 횟수
- $\mathbf{p} = (p_1, \dots, p_k)$: 각 결과의 발생 확률 (합은 1)
확률질량함수 (PMF)
\[P(\mathbf{X} = \mathbf{x}) = \frac{n!}{x_1! x_2! \cdots x_k!} \cdot \prod_{i=1}^{k} p_i^{x_i}\]
결과별 횟수가 $\mathbf{x} = (x_1, \dots, x_k)$일 확률:예: 공정한 주사위($p_i = \tfrac{1}{6}$)를 $n = 6$번 던졌을 때,
\[P = \frac{6!}{2! \cdot 1! \cdot 1! \cdot 1! \cdot 1! \cdot 0!} \cdot \left( \frac{1}{6} \right)^6 = \frac{720}{2} \cdot \left( \frac{1}{6} \right)^6 \approx 0.0347\]
1이 2번, 2~5가 각각 1번, 6은 0번 나온 확률은:기댓값
\(\operatorname{E}[X_i] = n p_i\)공분산
\(\operatorname{Cov}(X_i, X_j) = \begin{cases} np_i(1 - p_i) & \text{if } i = j \\ -np_i p_j & \text{if } i \ne j \end{cases}\)예: 주사위를 60번 던졌을 때 ($n = 60$, $p_i = \tfrac{1}{6}$)
- $\operatorname{E}[X_1] = 60 \cdot \tfrac{1}{6} = 10$
- $\operatorname{Cov}(X_1, X_2) = -60 \cdot \tfrac{1}{6} \cdot \tfrac{1}{6} = -1.67$
→ 한 면이 더 자주 나오면, 다른 면이 나올 기회는 줄어듦 → 음의 공분산
이항분포를 $k$차원으로 확장한 형태
BoW(Bag of Words), 마켓바스켓 분석 등
카테고리별 등장 횟수를 다룰 때 자주 등장
Poisson Distribution (푸아송분포)
단위 시간 또는 공간당 사건이 몇 번 발생하는지를 모델링하는 분포
→ 예: 1분 동안 전화 몇 통? 하루에 손님 몇 명?
- 모수
- $\lambda$: 단위 시간당 평균 발생 횟수
표본공간
\(\{0, 1, 2, \dots\}\)확률질량함수 (PMF)
\[P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \dots\]
사건이 $k$번 발생할 확률:예: 평균적으로 1분에 4건 접속이 발생한다면 ($\lambda = 4$),
\[P(X = 2) = \frac{e^{-4} \cdot 4^2}{2!} = \frac{e^{-4} \cdot 16}{2} \approx 0.1465\]
1분 동안 정확히 2건이 들어올 확률은:기댓값 : $\operatorname{E}[X] = \lambda$
- 분산: $\operatorname{Var}(X) = \lambda$
사건이 서로 독립이고,
동시에 여러 건이 발생할 확률이 거의 없을 때 적합
이항분포에서 $n$이 크고 $p$가 작을 때의 근사 모델로 자주 쓰인다