데이터분석데브코스 8/이론
2강 통계적 분석 전체 정보 설명
DataJ
2025. 5. 2. 14:59
통계학은 뭐하는 걸까?
- 통계학은 데이터를 이해하고 분석해서 좋은 결정을 내리는 기술이다.
- 전체 흐름:
- 무작위로 일어나는 일(확률)을 이해하고
- 숫자로 바꿔서(확률변수) 다루고
- 전체 인구(모집단)에서 일부(표본)를 뽑고
- 확률분포로 데이터 형태를 보고
- 가설검정으로 주장 확인하고
- 중심극한정리를 활용한다
1. 확률과 확률변수
- 확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
- 확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
- 이산확률변수: 셀 수 있는 값 (0, 1, 2...)
- 연속확률변수: 실수처럼 연속적인 값
📊 예시: 동전 10번 던질 때 앞면이 나올 횟수를 막대그래프로 그림 (PMF)
- 확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
- 확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
- 이산확률변수: 셀 수 있는 값 (0, 1, 2...)
- 연속확률변수: 실수처럼 연속적인 값
2. 확률분포
- 확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
- PMF: 이산형 확률변수 분포
- PDF: 연속형 확률변수 밀도
- CDF: 누적 확률
📊 예시: PDF: 종 모양 그래프 (정규분포)
- 확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
- PMF: 이산형 확률변수 분포
- PDF: 연속형 확률변수 밀도
- CDF: 누적 확률
📊 예시:
- PDF: 종 모양 그래프 (정규분포)
- CDF: 점점 올라가는 곡선
📌 포아송분포 (Poisson Distribution)
- 일정 시간이나 공간에서 드물게 발생하는 사건 개수 모델링
- 평균 발생 횟수 λ (람다)가 핵심
- 예: 시간당 응급실 도착 환자 수, 분당 도착하는 전화 수 등
📊 예시:
📌 이항분포의 정규근사
- 이항분포는 n이 충분히 크면 정규분포로 근사 가능
- 조건: np ≥ 5, n(1-p) ≥ 5
- 평균은 np, 표준편차는 √(np(1-p))
3. 기대값, 분산, 공분산
- 기대값: 평균
- 분산: 평균에서 얼마나 퍼져 있는지
- 공분산: 두 데이터가 함께 움직이는 정도
4. 모집단과 표본
- 모집단: 전체 (예: 모든 고등학생)
- 표본: 일부 (예: 100명 뽑아서 설문)
- 모수: 모집단의 수치 (평균, 비율 등)
- 표본통계량: 표본의 수치
- 추정: 표본으로 모집단을 예측
- i.i.d: 독립적이고 동일한 조건에서 추출
5. 중심극한정리 (CLT)
- 어떤 분포든 상관없이 표본 평균을 많이 모으면 정규분포처럼 됨
📊 예시: 지수분포에서 표본평균 1000개 → 히스토그램은 종 모양
6. 기술통계 함수 (Pandas)
- 데이터를 요약하는 함수들
- mean(): 평균, median(): 중앙값, mode(): 최빈값
- var(), std(): 분산, 표준편차
- describe(): 요약통계 한 번에 보기
7. 가설검정
- 어떤 주장(H1)이 맞는지 확인하는 절차
- H0: 기존 가설, H1: 새로운 주장
- 유의수준 α: 틀릴 가능성 허용 한계 (보통 0.05)
- Z검정: 분산을 알 때, T검정: 모를 때
- 단측검정: 한쪽 방향만 봄
- 양측검정: 양쪽 모두 고려
📊 예시: 단측검정:
양측검정:
8. 분산분석 (ANOVA)
- 3개 이상 그룹의 평균 비교
- F-분포: 그룹 간 분산 ÷ 그룹 내 분산
- 조건: 정규성, 등분산성, 독립성
📊 예시:
- 3개 이상 그룹의 평균 비교
- F-분포: 그룹 간 분산 ÷ 그룹 내 분산 클수록 비교가 잘되었을수잇음
- 조건: 정규성, 등분산성, 독립성