데이터분석데브코스 8/이론

2강 통계적 분석 전체 정보 설명

DataJ 2025. 5. 2. 14:59

통계학은 뭐하는 걸까?

  • 통계학은 데이터를 이해하고 분석해서 좋은 결정을 내리는 기술이다.
  • 전체 흐름:
    1. 무작위로 일어나는 일(확률)을 이해하고
    2. 숫자로 바꿔서(확률변수) 다루고
    3. 전체 인구(모집단)에서 일부(표본)를 뽑고
    4. 확률분포로 데이터 형태를 보고
    5. 가설검정으로 주장 확인하고
    6. 중심극한정리를 활용한다

1. 확률과 확률변수

  • 확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
  • 확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
  • 이산확률변수: 셀 수 있는 값 (0, 1, 2...)
  • 연속확률변수: 실수처럼 연속적인 값

📊 예시: 동전 10번 던질 때 앞면이 나올 횟수를 막대그래프로 그림 (PMF)

  • 확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
  • 확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
  • 이산확률변수: 셀 수 있는 값 (0, 1, 2...)
  • 연속확률변수: 실수처럼 연속적인 값

2. 확률분포

  • 확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
  • PMF: 이산형 확률변수 분포
  • PDF: 연속형 확률변수 밀도
  • CDF: 누적 확률

📊 예시: PDF: 종 모양 그래프 (정규분포)

  • 확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
  • PMF: 이산형 확률변수 분포
  • PDF: 연속형 확률변수 밀도
  • CDF: 누적 확률

📊 예시:

  • PDF: 종 모양 그래프 (정규분포)
  • CDF: 점점 올라가는 곡선

 

📌 포아송분포 (Poisson Distribution)

  • 일정 시간이나 공간에서 드물게 발생하는 사건 개수 모델링
  • 평균 발생 횟수 λ (람다)가 핵심
  • 예: 시간당 응급실 도착 환자 수, 분당 도착하는 전화 수 등

📊 예시:

 


📌 이항분포의 정규근사

  • 이항분포는 n이 충분히 크면 정규분포로 근사 가능
  • 조건: np ≥ 5, n(1-p) ≥ 5
  • 평균은 np, 표준편차는 √(np(1-p))


3. 기대값, 분산, 공분산

  • 기대값: 평균
  • 분산: 평균에서 얼마나 퍼져 있는지
  • 공분산: 두 데이터가 함께 움직이는 정도

4. 모집단과 표본

  • 모집단: 전체 (예: 모든 고등학생)
  • 표본: 일부 (예: 100명 뽑아서 설문)
  • 모수: 모집단의 수치 (평균, 비율 등)
  • 표본통계량: 표본의 수치
  • 추정: 표본으로 모집단을 예측
  • i.i.d: 독립적이고 동일한 조건에서 추출

5. 중심극한정리 (CLT)

  • 어떤 분포든 상관없이 표본 평균을 많이 모으면 정규분포처럼 됨

📊 예시: 지수분포에서 표본평균 1000개 → 히스토그램은 종 모양


6. 기술통계 함수 (Pandas)

  • 데이터를 요약하는 함수들
    • mean(): 평균, median(): 중앙값, mode(): 최빈값
    • var(), std(): 분산, 표준편차
    • describe(): 요약통계 한 번에 보기

7. 가설검정

  • 어떤 주장(H1)이 맞는지 확인하는 절차
  • H0: 기존 가설, H1: 새로운 주장
  • 유의수준 α: 틀릴 가능성 허용 한계 (보통 0.05)
  • Z검정: 분산을 알 때, T검정: 모를 때
  • 단측검정: 한쪽 방향만 봄
  • 양측검정: 양쪽 모두 고려

📊 예시: 단측검정:

양측검정:


8. 분산분석 (ANOVA)

  • 3개 이상 그룹의 평균 비교
  • F-분포: 그룹 간 분산 ÷ 그룹 내 분산
  • 조건: 정규성, 등분산성, 독립성

📊 예시:

  • 3개 이상 그룹의 평균 비교
  • F-분포: 그룹 간 분산 ÷ 그룹 내 분산 클수록 비교가 잘되었을수잇음

  • 조건: 정규성, 등분산성, 독립성