본문 바로가기
학습/기초통계

📊 6. 기술통계 (Descriptive Statistics)

by DataJ 2025. 5. 12.

데이터를 요약해서 한눈에 파악할 수 있게 해주는 통계 방법입니다.

엑셀, 판다스, 구글 시트에서 가장 많이 쓰이는 통계 기능이기도 해요!


✅ 기술통계는 어떤 걸 분석할까?

항목 설명 예시

중심 데이터가 어디쯤 몰려 있나? 평균, 중앙값
퍼짐 얼마나 흩어져 있나? 분산, 표준편차
형태 이상한 값이 있나? 대칭적인가? 분위수, 최빈값

🧮 대표적인 통계 수치들

항목 설명 코드 예시 (Pandas)

count 데이터 개수 df.count()
mean 평균 df.mean()
median 중앙값 df.median()
mode 최빈값 (가장 자주 나오는 값) df.mode()
std 표준편차 (퍼진 정도) df.std()
var 분산 (std의 제곱) df.var()
sum 전체 합 df.sum()
quantile 분위수 (ex: 25%, 50%, 75%) df.quantile(0.5)
unique 고유값 보기(중복값X) df['col'].unique()
corr 상관관계(상관계수) df.corr()

📌 분위수란?

데이터를 백분율로 나눈 기준값

  • 25% 분위수 (Q1): 하위 25% 값
  • 50% 분위수 (Q2 = 중앙값)
  • 75% 분위수 (Q3): 상위 25% 이전까지

📌 describe() 함수 하나로 요약 통계 끝!

df.describe()

항목 의미

count 데이터 수
mean 평균
std 표준편차
min 최소값
25% Q1
50% 중앙값
75% Q3
max 최대값
  • 문자 데이터는 df.describe(include='object') 사용

📊 상관관계 분석: df.corr()

2개의 숫자형 데이터가 같이 움직이는지 분석

상관계수 값 해석

1에 가까움 정비례
-1에 가까움 반비례
0 근처 관련 거의 없음

예시 요약 (판다스 기반):

# 평균
df['age'].mean()  # 평균 나이

# 중앙값
df['fare'].median()

# 분위수
df['age'].quantile(0.25)  # Q1

# 여러 통계 한번에 보기
df['age'].agg(['min', 'max', 'mean', 'count'])

# 상관관계
df.corr()

요약 노트 ✏️

  • 기술통계는 데이터의 전체 모습을 요약해줌
  • describe() 하나로 기본 통계는 대부분 커버됨
  • 분위수, 평균, 표준편차 등을 통해 이상치나 퍼짐 정도를 확인
  • **df.corr()**으로는 변수 간 관련성을 확인