Post

통계 - 기초개념

통계 - 기초개념

📚 통계 기초개념


1. 용어들

확률 (Probability)

어떤 사건이 일어날 가능성을 0에서 1 사이의 수로 표현한 것


확률변수 (random variable)

기호: $X$

확률 실험의 결과를 숫자로 표현한 변수


표본공간 (Sample Space)

실험에서 나올 수 있는 모든 가능한 결과들의 집합

  • 예: 동전을 던질 때 → {앞, 뒤}

확률의 기본 공식

$ P(A) = \frac{\text{A가 일어나는 경우 수}}{\text{전체 경우 수}} $

예시)
동전 던질 때 앞면이 나올 확률

  • 전체: 2, 앞면: 1
  • $P(\text{앞면}) = \frac{1}{2} = 0.5$

사건 (Event)

표본공간의 부분집합, 즉 우리가 관심 있는 결과들의 집합

용어설명공식/조건예시
사건 (Event)관심 있는 결과들의 모음$A \subseteq S$앞면이 나올 사건 $A$
표본공간 (S)가능한 모든 경우의 집합$S$$S = {\text{앞, 뒤}}$
여사건 (A’)사건 A가 일어나지 않는 경우$A’$ 또는 $A^c$$A$=짝수, $A’$=홀수
독립사건한 사건이 다른 사건에 영향을 주지 않음$P(A \cap B) = P(A)P(B)$주사위 던지고, 동전 던지기
종속사건한 사건이 다른 사건에 영향을 줌$P(A \cap B) \ne P(A)P(B)$카드 한 장 뽑고, 다시 넣지 않고 또 한 장 뽑기

복원과 비복원 (With & Without Replacement)

용어설명예시
복원 추출한 번 뽑은 뒤 다시 넣고 다음 걸 뽑는 방식. 확률이 변하지 않음.카드 뽑고 다시 넣은 뒤 또 뽑기 → 독립사건
비복원 추출한 번 뽑은 뒤 다시 넣지 않고 다음 걸 뽑는 방식. 확률이 달라짐.카드 한 장 뽑고, 다시 넣지 않고 또 뽑기 → 종속사건

PDF와 CDF란

방법설명예시
PDF (Probability Density Function, 확률 밀도 함수)특정 값 주변의 **확률 밀도(농도)**를 나타냄시험 점수 85 근처에 사람이 얼마나 몰려있는지
CDF (Cumulative Distribution Function, 누적 분포 함수)어떤 값보다 작거나 같은 확률을 계산키 170cm 이하일 확률은 70%

이산형과 연속형

  • 이산형: 값이 1명, 2명처럼 뚝뚝 끊어지는것
  • 연속형: 0.37 초 처럼 실수선 위를 연속적으로 움직이는 것

population, sample (모집단과 표본)

용어의미크기 표기
모집단전체 데이터N
표본전체 데이터의 일부n

모수와 통계량

  • 모수(parameter): 모집단 전체를 완벽하게 조사했을 때 얻어지는 수치 (보통 알 수 없음)
  • 통계량(statistic): 표본을 통해 계산한 값 (모수의 추정치)

예시)

  • 모수: 전체 국민의 평균 소득 μ (뮤)
  • 통계량: 표본 1,000명의 평균 소득 $\bar{x}$

Mean (평균, 산술평균)

기호:
모집단의 평균: $\mu$
표본집단의 평균: $\bar{x}$

모든 값을 더한 뒤, 데이터 개수($n$)로 나눈 값
예시) 점수가 70, 80, 90이면 \(\bar{x} = \frac{70 + 80 + 90}{3} = \frac{240}{3} = 80\)


Dev (Deviation, 편차)

기호: $d$

한 사람의 값이 평균에서 얼마나 떨어져 있는지를 나타냄
예시) 내 점수가 80이고, 평균이 70이면
\(d = x_i - \bar{x} = 80 - 70 = 10\)


Var (Variance, 분산)

기호:
모집단의 분산: $\sigma^2$
표본집단의 분산: $s^2$

모든 사람의 편차를 제곱해서 평균을 낸 값
데이터가 평균에서 얼마나 퍼져 있는지(흩어진 정도)를 숫자로 보여줌
예시) 친구들의 편차가 -10, 0, +10일 때
\(\sigma^2 = \frac{(-10)^2 + 0^2 + 10^2}{3} = \frac{100 + 0 + 100}{3} = 66.67\)

주의: 표본분산을 구할 때는 데이터 개수보다 1 적은 수로 나눈다. 즉, n−1로 나눔.


STD (Standard Deviation, 표준편차)

기호:
모집단의 표준편차: $\sigma$
표본집단의 표준편차: $s$

분산에 제곱근을 씌운 값
즉, 데이터가 평균에서 얼마나 떨어져 있는지, 실제 단위로 보여줌
예시) 분산이 66.67이면
\(\sigma = \sqrt{66.67} \approx 8.16\)


SE (Standard Error, 표준오차)

기호: $SE$

똑같은 크기의 표본을 여러 번 뽑아 평균을 구하면,
그 평균값들이 얼마나 퍼져 있는지를 나타내는 값
즉, 표본 평균들의 표준편차
\(SE = \frac{s}{\sqrt{n}}\)


2. 표본평균의 분포와 중심극한정리

2.1 표본평균의 분포 (SDM)

  • 같은 크기의 표본을 여러 번 뽑아 평균을 구했을 때, 그 평균값들이 만드는 분포

2.2 중심극한정리 (CLT)

  • 표본 크기 $n$이 충분히 크면, 표본평균의 분포는 정규분포에 가까워짐

3. 표준화 (Standardization)와 Z-score

3.1 Z-score (개별 데이터)

  • 정의: 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값
  • 공식:
    \(Z = \frac{x - \bar{x}}{\sigma}\)
  • 예시:
    반 평균 70점, 표준편차 8점, 86점의 Z-score
    \(Z = \frac{86 - 70}{8} = 2\) → 평균보다 2 표준편차 높음

  • 해석:
    • $Z = 0$ → 평균과 같음
    • $Z = +1.5$ → 평균보다 $1.5\sigma$ 높음
    • $Z = -2$ → 평균보다 $2\sigma$ 낮음

서로 다른 분포를 동일 기준으로 비교할 수 있게 해줌
정규분포에서는 Z값으로 바로 확률을 구할 수 있음


3.2 표본평균 Z-score

  • 정의: 표본의 평균이 모집단 평균에서 얼마나 떨어졌는지 표준오차 기준으로 나타낸 값
  • 공식:
    \(Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\)
    • $\bar{x}$: 표본 평균
    • $\mu$: 모집단 평균
    • $\sigma$: 모집단 표준편차
    • $n$: 표본 크기
    • $\frac{\sigma}{\sqrt{n}}$: 표준오차(SE)
  • 예시:
    모집단 평균 $\mu = 100$, 표준편차 $\sigma = 15$, 표본 크기 $n = 25$, 표본 평균 $\bar{x} = 108$
    \(Z = \frac{108 - 100}{15 / \sqrt{25}} = \frac{8}{3} \approx 2.67\) → 이 표본 평균은 모집단 평균보다 2.67 표준오차만큼 큼

This post is licensed under CC BY 4.0 by the author.

Trending Tags