데이터를 요약해서 한눈에 파악할 수 있게 해주는 통계 방법입니다.
엑셀, 판다스, 구글 시트에서 가장 많이 쓰이는 통계 기능이기도 해요!
✅ 기술통계는 어떤 걸 분석할까?
항목 설명 예시
중심 | 데이터가 어디쯤 몰려 있나? | 평균, 중앙값 |
퍼짐 | 얼마나 흩어져 있나? | 분산, 표준편차 |
형태 | 이상한 값이 있나? 대칭적인가? | 분위수, 최빈값 |
🧮 대표적인 통계 수치들
항목 설명 코드 예시 (Pandas)
count | 데이터 개수 | df.count() |
mean | 평균 | df.mean() |
median | 중앙값 | df.median() |
mode | 최빈값 (가장 자주 나오는 값) | df.mode() |
std | 표준편차 (퍼진 정도) | df.std() |
var | 분산 (std의 제곱) | df.var() |
sum | 전체 합 | df.sum() |
quantile | 분위수 (ex: 25%, 50%, 75%) | df.quantile(0.5) |
unique | 고유값 보기(중복값X) | df['col'].unique() |
corr | 상관관계(상관계수) | df.corr() |
📌 분위수란?
데이터를 백분율로 나눈 기준값
- 25% 분위수 (Q1): 하위 25% 값
- 50% 분위수 (Q2 = 중앙값)
- 75% 분위수 (Q3): 상위 25% 이전까지
📌 describe() 함수 하나로 요약 통계 끝!
df.describe()
항목 의미
count | 데이터 수 |
mean | 평균 |
std | 표준편차 |
min | 최소값 |
25% | Q1 |
50% | 중앙값 |
75% | Q3 |
max | 최대값 |
- 문자 데이터는 df.describe(include='object') 사용
📊 상관관계 분석: df.corr()
2개의 숫자형 데이터가 같이 움직이는지 분석
상관계수 값 해석
1에 가까움 | 정비례 |
-1에 가까움 | 반비례 |
0 근처 | 관련 거의 없음 |
예시 요약 (판다스 기반):
# 평균
df['age'].mean() # 평균 나이
# 중앙값
df['fare'].median()
# 분위수
df['age'].quantile(0.25) # Q1
# 여러 통계 한번에 보기
df['age'].agg(['min', 'max', 'mean', 'count'])
# 상관관계
df.corr()
요약 노트 ✏️
- 기술통계는 데이터의 전체 모습을 요약해줌
- describe() 하나로 기본 통계는 대부분 커버됨
- 분위수, 평균, 표준편차 등을 통해 이상치나 퍼짐 정도를 확인
- **df.corr()**으로는 변수 간 관련성을 확인
'학습 > 기초통계' 카테고리의 다른 글
🧪 7. 가설검정 & 신뢰구간 & ANOVA (쉽게 배우는 통계적 추론) (0) | 2025.05.12 |
---|---|
🧪 5. 모집단, 표본, 중심극한정리 (데이터 분석의 시작점) (0) | 2025.05.12 |
📚 4. 확률분포의 종류 (쉽게 이해하기) (0) | 2025.05.12 |
🧠 3. 기댓값과 분산 (평균과 퍼짐 이해하기) (0) | 2025.05.12 |
🎲 2. 확률분포와 확률함수 (0) | 2025.05.12 |