2강 통계적 분석 전체 정보 설명

데이터분석데브코스 8/이론

2강 통계적 분석 전체 정보 설명

DataJ 2025. 5. 2. 14:59

통계학은 뭐하는 걸까?

통계학은 데이터를 이해하고 분석해서 좋은 결정을 내리는 기술이다.
전체 흐름:
1. 무작위로 일어나는 일(확률)을 이해하고
2. 숫자로 바꿔서(확률변수) 다루고
3. 전체 인구(모집단)에서 일부(표본)를 뽑고
4. 확률분포로 데이터 형태를 보고
5. 가설검정으로 주장 확인하고
6. 중심극한정리를 활용한다

1. 확률과 확률변수

확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
이산확률변수: 셀 수 있는 값 (0, 1, 2...)
연속확률변수: 실수처럼 연속적인 값

📊 예시: 동전 10번 던질 때 앞면이 나올 횟수를 막대그래프로 그림 (PMF)

확률: 어떤 일이 일어날 가능성 (예: 동전 앞면 확률 = 0.5)
확률변수: 결과를 숫자로 바꾼 것 (예: 앞=1, 뒤=0)
이산확률변수: 셀 수 있는 값 (0, 1, 2...)
연속확률변수: 실수처럼 연속적인 값

2. 확률분포

확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
PMF: 이산형 확률변수 분포
PDF: 연속형 확률변수 밀도
CDF: 누적 확률

📊 예시: PDF: 종 모양 그래프 (정규분포)

확률분포: 어떤 결과가 얼마나 자주 나오는지 보여줌
PMF: 이산형 확률변수 분포
PDF: 연속형 확률변수 밀도
CDF: 누적 확률

📊 예시:

PDF: 종 모양 그래프 (정규분포)
CDF: 점점 올라가는 곡선

📌 포아송분포 (Poisson Distribution)

일정 시간이나 공간에서 드물게 발생하는 사건 개수 모델링
평균 발생 횟수 λ (람다)가 핵심
예: 시간당 응급실 도착 환자 수, 분당 도착하는 전화 수 등

📊 예시:

📌 이항분포의 정규근사

이항분포는 n이 충분히 크면 정규분포로 근사 가능
조건: np ≥ 5, n(1-p) ≥ 5
평균은 np, 표준편차는 √(np(1-p))

3. 기대값, 분산, 공분산

기대값: 평균
분산: 평균에서 얼마나 퍼져 있는지
공분산: 두 데이터가 함께 움직이는 정도

4. 모집단과 표본

모집단: 전체 (예: 모든 고등학생)
표본: 일부 (예: 100명 뽑아서 설문)
모수: 모집단의 수치 (평균, 비율 등)
표본통계량: 표본의 수치
추정: 표본으로 모집단을 예측
i.i.d: 독립적이고 동일한 조건에서 추출

5. 중심극한정리 (CLT)

어떤 분포든 상관없이 표본 평균을 많이 모으면 정규분포처럼 됨

📊 예시: 지수분포에서 표본평균 1000개 → 히스토그램은 종 모양

6. 기술통계 함수 (Pandas)

데이터를 요약하는 함수들
- mean(): 평균, median(): 중앙값, mode(): 최빈값
- var(), std(): 분산, 표준편차
- describe(): 요약통계 한 번에 보기

7. 가설검정

어떤 주장(H1)이 맞는지 확인하는 절차
H0: 기존 가설, H1: 새로운 주장
유의수준 α: 틀릴 가능성 허용 한계 (보통 0.05)
Z검정: 분산을 알 때, T검정: 모를 때
단측검정: 한쪽 방향만 봄
양측검정: 양쪽 모두 고려

📊 예시: 단측검정:

양측검정:

8. 분산분석 (ANOVA)

3개 이상 그룹의 평균 비교
F-분포: 그룹 간 분산 ÷ 그룹 내 분산
조건: 정규성, 등분산성, 독립성

📊 예시:

3개 이상 그룹의 평균 비교
F-분포: 그룹 간 분산 ÷ 그룹 내 분산 클수록 비교가 잘되었을수잇음

조건: 정규성, 등분산성, 독립성