통계 - 기초개념

Posted Jul 24, 2025

By mcube

8 min read

통계 - 기초개념

📚 통계 기초개념

1. 용어들

확률 (Probability)

어떤 사건이 일어날 가능성을 0에서 1 사이의 수로 표현한 것

확률변수 (random variable)

기호: $X$

확률 실험의 결과를 숫자로 표현한 변수

표본공간 (Sample Space)

실험에서 나올 수 있는 모든 가능한 결과들의 집합

예: 동전을 던질 때 → {앞, 뒤}

확률의 기본 공식

$ P(A) = \frac{\text{A가 일어나는 경우 수}}{\text{전체 경우 수}} $

예시)
동전 던질 때 앞면이 나올 확률

전체: 2, 앞면: 1
$P(\text{앞면}) = \frac{1}{2} = 0.5$

사건 (Event)

표본공간의 부분집합, 즉 우리가 관심 있는 결과들의 집합

용어	설명	공식/조건	예시
사건 (Event)	관심 있는 결과들의 모음	$A \subseteq S$	앞면이 나올 사건 $A$
표본공간 (S)	가능한 모든 경우의 집합	$S$	$S = {\text{앞, 뒤}}$
여사건 (A’)	사건 A가 일어나지 않는 경우	$A’$ 또는 $A^c$	$A$=짝수, $A’$=홀수
독립사건	한 사건이 다른 사건에 영향을 주지 않음	$P(A \cap B) = P(A)P(B)$	주사위 던지고, 동전 던지기
종속사건	한 사건이 다른 사건에 영향을 줌	$P(A \cap B) \ne P(A)P(B)$	카드 한 장 뽑고, 다시 넣지 않고 또 한 장 뽑기

복원과 비복원 (With & Without Replacement)

용어	설명	예시
복원 추출	한 번 뽑은 뒤 다시 넣고 다음 걸 뽑는 방식. 확률이 변하지 않음.	카드 뽑고 다시 넣은 뒤 또 뽑기 → 독립사건
비복원 추출	한 번 뽑은 뒤 다시 넣지 않고 다음 걸 뽑는 방식. 확률이 달라짐.	카드 한 장 뽑고, 다시 넣지 않고 또 뽑기 → 종속사건

PDF와 CDF란

방법	설명	예시
PDF (Probability Density Function, 확률 밀도 함수)	특정 값 주변의 확률 밀도(농도)를 나타냄	시험 점수 85 근처에 사람이 얼마나 몰려있는지
CDF (Cumulative Distribution Function, 누적 분포 함수)	어떤 값보다 작거나 같은 확률을 계산	키 170cm 이하일 확률은 70%

이산형과 연속형

이산형: 값이 1명, 2명처럼 뚝뚝 끊어지는것
연속형: 0.37 초 처럼 실수선 위를 연속적으로 움직이는 것

population, sample (모집단과 표본)

용어	의미	크기 표기
모집단	전체 데이터	N
표본	전체 데이터의 일부	n

모수와 통계량

모수(parameter): 모집단 전체를 완벽하게 조사했을 때 얻어지는 수치 (보통 알 수 없음)
통계량(statistic): 표본을 통해 계산한 값 (모수의 추정치)

예시)

모수: 전체 국민의 평균 소득 μ (뮤)
통계량: 표본 1,000명의 평균 소득 $\bar{x}$

Mean (평균, 산술평균)

기호:
모집단의 평균: $\mu$
표본집단의 평균: $\bar{x}$

모든 값을 더한 뒤, 데이터 개수($n$)로 나눈 값
예시) 점수가 70, 80, 90이면 $\bar{x} = \frac{70 + 80 + 90}{3} = \frac{240}{3} = 80$

Dev (Deviation, 편차)

기호: $d$

한 사람의 값이 평균에서 얼마나 떨어져 있는지를 나타냄
예시) 내 점수가 80이고, 평균이 70이면
$d = x_i - \bar{x} = 80 - 70 = 10$

Var (Variance, 분산)

기호:
모집단의 분산: $\sigma^2$
표본집단의 분산: $s^2$

모든 사람의 편차를 제곱해서 평균을 낸 값
데이터가 평균에서 얼마나 퍼져 있는지(흩어진 정도)를 숫자로 보여줌
예시) 친구들의 편차가 -10, 0, +10일 때
$\sigma^2 = \frac{(-10)^2 + 0^2 + 10^2}{3} = \frac{100 + 0 + 100}{3} = 66.67$

주의: 표본분산을 구할 때는 데이터 개수보다 1 적은 수로 나눈다. 즉, n−1로 나눔.

STD (Standard Deviation, 표준편차)

기호:
모집단의 표준편차: $\sigma$
표본집단의 표준편차: $s$

분산에 제곱근을 씌운 값
즉, 데이터가 평균에서 얼마나 떨어져 있는지, 실제 단위로 보여줌
예시) 분산이 66.67이면
$\sigma = \sqrt{66.67} \approx 8.16$

SE (Standard Error, 표준오차)

기호: $SE$

똑같은 크기의 표본을 여러 번 뽑아 평균을 구하면,
그 평균값들이 얼마나 퍼져 있는지를 나타내는 값
즉, 표본 평균들의 표준편차
$SE = \frac{s}{\sqrt{n}}$

2. 표본평균의 분포와 중심극한정리

2.1 표본평균의 분포 (SDM)

같은 크기의 표본을 여러 번 뽑아 평균을 구했을 때, 그 평균값들이 만드는 분포

2.2 중심극한정리 (CLT)

표본 크기 $n$이 충분히 크면, 표본평균의 분포는 정규분포에 가까워짐

3. 표준화 (Standardization)와 Z-score

3.1 Z-score (개별 데이터)

정의: 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값
공식:
$Z = \frac{x - \bar{x}}{\sigma}$
예시:
반 평균 70점, 표준편차 8점, 86점의 Z-score
$Z = \frac{86 - 70}{8} = 2$ → 평균보다 2 표준편차 높음
해석:
- $Z = 0$ → 평균과 같음
- $Z = +1.5$ → 평균보다 $1.5\sigma$ 높음
- $Z = -2$ → 평균보다 $2\sigma$ 낮음

서로 다른 분포를 동일 기준으로 비교할 수 있게 해줌
정규분포에서는 Z값으로 바로 확률을 구할 수 있음

3.2 표본평균 Z-score

정의: 표본의 평균이 모집단 평균에서 얼마나 떨어졌는지 표준오차 기준으로 나타낸 값
공식:
$Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}$
- $\bar{x}$: 표본 평균
- $\mu$: 모집단 평균
- $\sigma$: 모집단 표준편차
- $n$: 표본 크기
- $\frac{\sigma}{\sqrt{n}}$: 표준오차(SE)
예시:
모집단 평균 $\mu = 100$, 표준편차 $\sigma = 15$, 표본 크기 $n = 25$, 표본 평균 $\bar{x} = 108$
$Z = \frac{108 - 100}{15 / \sqrt{25}} = \frac{8}{3} \approx 2.67$ → 이 표본 평균은 모집단 평균보다 2.67 표준오차만큼 큼

통계

This post is licensed under CC BY 4.0 by the author.