본문 바로가기
학습/기초통계

🧪 5. 모집단, 표본, 중심극한정리 (데이터 분석의 시작점)

by DataJ 2025. 5. 12.

📌 모집단(Population)이란?

우리가 궁금해하는 전체 대상

  • 예: 대한민국 고등학생들의 평균 키 → 여기서 모집단은 "모든 고등학생"

📌 모수(Parameter)란?

모집단 전체의 특성을 나타내는 숫자

(예: 평균, 분산, 비율 등)

  • 예: 대한민국 고등학생 키의 평균값 μ(뮤), 표준편차 σ(시그마)

⚠️ 그런데 모든 사람을 조사하는 건 어렵기 때문에…


📌 표본(Sample)이란?

모집단 중 일부만 뽑은 것 (부분집합)

  • 예: 고등학생 100명만 조사해서 키를 측정
  • → 이때 뽑은 100명이 표본

📌 통계량(Statistic)이란?

표본으로부터 계산한 값

(예: 표본 평균, 표본 분산)


📌 왜 n-1로 나눌까? (Bessel's Correction)

  • 표본 분산 계산할 때 n-1로 나누는 이유
  • 편향을 줄이기 위해서!
  • n으로 나누면 모집단보다 작게 나오는 경향이 생김
  • → 그래서 n-1로 나누어 더 정확한 추정을 하도록 함

📌 중심극한정리 (CLT: Central Limit Theorem)

"표본 평균은 정규분포를 따른다"

✨ 핵심 요약:

  • 어떤 분포에서든 상관없이,
  • 표본 평균은 표본 수가 충분히 크면정규분포에 가까워진다!

예:

  • 정규분포가 아닌 분포라도 → 30개 이상 표본이면 평균은 정규분포처럼 됨!
  • 수학적 표현:
  • X₁, X₂, ..., Xn ~ 모집단(평균 μ, 분산 σ²) ⇒ X̄ (표본평균) ~ N(μ, σ²/n)

📌 실전 요약 정리

개념 뜻 예시

모집단 전체 대상 모든 고등학생
표본 일부 뽑은 대상 100명의 고등학생
모수 모집단의 특성치 전체 평균 키 μ
통계량 표본으로 구한 값 평균 X̄, 분산 S²
중심극한정리 표본평균은 정규분포를 따른다 n≥30이면 거의 정규분포