통계 - 기초개념
📚 통계 기초개념
1. 용어들
확률 (Probability)
어떤 사건이 일어날 가능성을 0에서 1 사이의 수로 표현한 것
확률변수 (random variable)
기호: $X$
확률 실험의 결과를 숫자로 표현한 변수
표본공간 (Sample Space)
실험에서 나올 수 있는 모든 가능한 결과들의 집합
- 예: 동전을 던질 때 → {앞, 뒤}
확률의 기본 공식
$ P(A) = \frac{\text{A가 일어나는 경우 수}}{\text{전체 경우 수}} $
예시)
동전 던질 때 앞면이 나올 확률
- 전체: 2, 앞면: 1
- $P(\text{앞면}) = \frac{1}{2} = 0.5$
사건 (Event)
표본공간의 부분집합, 즉 우리가 관심 있는 결과들의 집합
| 용어 | 설명 | 공식/조건 | 예시 |
|---|---|---|---|
| 사건 (Event) | 관심 있는 결과들의 모음 | $A \subseteq S$ | 앞면이 나올 사건 $A$ |
| 표본공간 (S) | 가능한 모든 경우의 집합 | $S$ | $S = {\text{앞, 뒤}}$ |
| 여사건 (A’) | 사건 A가 일어나지 않는 경우 | $A’$ 또는 $A^c$ | $A$=짝수, $A’$=홀수 |
| 독립사건 | 한 사건이 다른 사건에 영향을 주지 않음 | $P(A \cap B) = P(A)P(B)$ | 주사위 던지고, 동전 던지기 |
| 종속사건 | 한 사건이 다른 사건에 영향을 줌 | $P(A \cap B) \ne P(A)P(B)$ | 카드 한 장 뽑고, 다시 넣지 않고 또 한 장 뽑기 |
복원과 비복원 (With & Without Replacement)
| 용어 | 설명 | 예시 |
|---|---|---|
| 복원 추출 | 한 번 뽑은 뒤 다시 넣고 다음 걸 뽑는 방식. 확률이 변하지 않음. | 카드 뽑고 다시 넣은 뒤 또 뽑기 → 독립사건 |
| 비복원 추출 | 한 번 뽑은 뒤 다시 넣지 않고 다음 걸 뽑는 방식. 확률이 달라짐. | 카드 한 장 뽑고, 다시 넣지 않고 또 뽑기 → 종속사건 |
PDF와 CDF란
| 방법 | 설명 | 예시 |
|---|---|---|
| PDF (Probability Density Function, 확률 밀도 함수) | 특정 값 주변의 **확률 밀도(농도)**를 나타냄 | 시험 점수 85 근처에 사람이 얼마나 몰려있는지 |
| CDF (Cumulative Distribution Function, 누적 분포 함수) | 어떤 값보다 작거나 같은 확률을 계산 | 키 170cm 이하일 확률은 70% |
이산형과 연속형
- 이산형: 값이 1명, 2명처럼 뚝뚝 끊어지는것
- 연속형:
0.37 초처럼 실수선 위를 연속적으로 움직이는 것
population, sample (모집단과 표본)
| 용어 | 의미 | 크기 표기 |
|---|---|---|
| 모집단 | 전체 데이터 | N |
| 표본 | 전체 데이터의 일부 | n |
모수와 통계량
- 모수(parameter): 모집단 전체를 완벽하게 조사했을 때 얻어지는 수치 (보통 알 수 없음)
- 통계량(statistic): 표본을 통해 계산한 값 (모수의 추정치)
예시)
- 모수: 전체 국민의 평균 소득 μ (뮤)
- 통계량: 표본 1,000명의 평균 소득 $\bar{x}$
Mean (평균, 산술평균)
기호:
모집단의 평균: $\mu$
표본집단의 평균: $\bar{x}$
모든 값을 더한 뒤, 데이터 개수($n$)로 나눈 값
예시) 점수가 70, 80, 90이면 \(\bar{x} = \frac{70 + 80 + 90}{3} = \frac{240}{3} = 80\)
Dev (Deviation, 편차)
기호: $d$
한 사람의 값이 평균에서 얼마나 떨어져 있는지를 나타냄
예시) 내 점수가 80이고, 평균이 70이면
\(d = x_i - \bar{x} = 80 - 70 = 10\)
Var (Variance, 분산)
기호:
모집단의 분산: $\sigma^2$
표본집단의 분산: $s^2$
모든 사람의 편차를 제곱해서 평균을 낸 값
데이터가 평균에서 얼마나 퍼져 있는지(흩어진 정도)를 숫자로 보여줌
예시) 친구들의 편차가 -10, 0, +10일 때
\(\sigma^2 = \frac{(-10)^2 + 0^2 + 10^2}{3} = \frac{100 + 0 + 100}{3} = 66.67\)
주의: 표본분산을 구할 때는 데이터 개수보다 1 적은 수로 나눈다. 즉, n−1로 나눔.
STD (Standard Deviation, 표준편차)
기호:
모집단의 표준편차: $\sigma$
표본집단의 표준편차: $s$
분산에 제곱근을 씌운 값
즉, 데이터가 평균에서 얼마나 떨어져 있는지, 실제 단위로 보여줌
예시) 분산이 66.67이면
\(\sigma = \sqrt{66.67} \approx 8.16\)
SE (Standard Error, 표준오차)
기호: $SE$
똑같은 크기의 표본을 여러 번 뽑아 평균을 구하면,
그 평균값들이 얼마나 퍼져 있는지를 나타내는 값
즉, 표본 평균들의 표준편차
\(SE = \frac{s}{\sqrt{n}}\)
2. 표본평균의 분포와 중심극한정리
2.1 표본평균의 분포 (SDM)
- 같은 크기의 표본을 여러 번 뽑아 평균을 구했을 때, 그 평균값들이 만드는 분포
2.2 중심극한정리 (CLT)
- 표본 크기 $n$이 충분히 크면, 표본평균의 분포는 정규분포에 가까워짐
3. 표준화 (Standardization)와 Z-score
3.1 Z-score (개별 데이터)
- 정의: 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값
- 공식:
\(Z = \frac{x - \bar{x}}{\sigma}\) 예시:
반 평균 70점, 표준편차 8점, 86점의 Z-score
\(Z = \frac{86 - 70}{8} = 2\) → 평균보다 2 표준편차 높음- 해석:
- $Z = 0$ → 평균과 같음
- $Z = +1.5$ → 평균보다 $1.5\sigma$ 높음
- $Z = -2$ → 평균보다 $2\sigma$ 낮음
서로 다른 분포를 동일 기준으로 비교할 수 있게 해줌
정규분포에서는 Z값으로 바로 확률을 구할 수 있음
3.2 표본평균 Z-score
- 정의: 표본의 평균이 모집단 평균에서 얼마나 떨어졌는지 표준오차 기준으로 나타낸 값
- 공식:
\(Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\)- $\bar{x}$: 표본 평균
- $\mu$: 모집단 평균
- $\sigma$: 모집단 표준편차
- $n$: 표본 크기
- $\frac{\sigma}{\sqrt{n}}$: 표준오차(SE)
- 예시:
모집단 평균 $\mu = 100$, 표준편차 $\sigma = 15$, 표본 크기 $n = 25$, 표본 평균 $\bar{x} = 108$
\(Z = \frac{108 - 100}{15 / \sqrt{25}} = \frac{8}{3} \approx 2.67\) → 이 표본 평균은 모집단 평균보다 2.67 표준오차만큼 큼