본문 바로가기
학습/기초통계

🎲 2. 확률분포와 확률함수

by DataJ 2025. 5. 12.

확률변수가 "어떤 값을 얼마나 자주 가지는지"를 정리한 게 바로 확률분포입니다.


📌 확률분포란?

  • 확률 변수가 어떤 값을 얼마나 가질 확률이 있는지를 나타낸 것
  • 예: 동전 2번 던졌을 때 앞면 나오는 횟수 X는 {0, 1, 2}가 될 수 있고
  • 그 확률은 아래처럼 나뉩니다:

X값 (앞면 수) 확률 P(X=x)

0 1/4
1 1/2
2 1/4
  • 이렇게 나온 값들과 그 확률의 쌍을 확률분포라고 해요.

📌 확률함수란? (P(x))

확률변수의 값에 확률을 "대응"시켜주는 함수

  • 예: P(X=1) = 0.5
  • → 앞면이 1번 나올 확률은 50%

✅ 확률 분포의 2가지 유형

유형 설명 함수 이름 예시

이산 확률분포 셀 수 있는 값만 가짐 확률질량함수 (PMF) 동전 앞면 횟수
연속 확률분포 실수 전체 범위를 가짐 확률밀도함수 (PDF) 키, 몸무게 등

🧮 PMF (확률질량함수, 이산형)

  • 예: 동전을 1번 던짐 → 앞(1), 뒤(0)
  • 확률변수 X가 0, 1 값을 가질 수 있고,
  • 각각 P(X=0)=0.5, P(X=1)=0.5라고 한다면,
# 성질
1. P(x) ≥ 0
2. 모든 확률의 합 = 1

📈 PDF (확률밀도함수, 연속형)

  • 예: 사람 키가 평균 170cm인 정규분포를 따를 때
  • 연속형 변수는 특정 값의 확률 = 0 (무한히 많기 때문에)
  • → 대신 어떤 구간 내 확률을 계산 (예: 160~180cm 사이)
  • PDF는 "곡선"으로 표현되고, 확률은 곡선 아래 면적으로 계산

📊 누적분포함수 (CDF)

어떤 값 이하가 나올 확률을 누적해서 보여줌

  • 예: P(X ≤ 2) = X가 0이거나 1이거나 2일 확률 모두 더한 값

✅ 예제: 주사위 두 번 던졌을 때, 합이 5~7일 확률은?

  • 가능한 합: 2~12
  • 확률:
    • P(5) = 4/36
    • P(6) = 5/36
    • P(7) = 6/36

P(5 ≤ X ≤ 7) = 4/36 + 5/36 + 6/36 = 15/36 = 5/12


📌 요약 노트 ✏️

  • 확률분포는 확률변수가 어떤 값을 얼마나 자주 가지는지를 보여줌
  • 이산형은 셀 수 있는 값 → PMF 사용
  • 연속형은 실수 전체 범위 → PDF 사용 (확률은 면적으로 계산)
  • CDF는 누적 확률