📊 6. 기술통계 (Descriptive Statistics)

데이터를 요약해서 한눈에 파악할 수 있게 해주는 통계 방법입니다.

엑셀, 판다스, 구글 시트에서 가장 많이 쓰이는 통계 기능이기도 해요!

✅ 기술통계는 어떤 걸 분석할까?

항목 설명 예시

중심	데이터가 어디쯤 몰려 있나?	평균, 중앙값
퍼짐	얼마나 흩어져 있나?	분산, 표준편차
형태	이상한 값이 있나? 대칭적인가?	분위수, 최빈값

🧮 대표적인 통계 수치들

항목 설명 코드 예시 (Pandas)

count	데이터 개수	df.count()
mean	평균	df.mean()
median	중앙값	df.median()
mode	최빈값 (가장 자주 나오는 값)	df.mode()
std	표준편차 (퍼진 정도)	df.std()
var	분산 (std의 제곱)	df.var()
sum	전체 합	df.sum()
quantile	분위수 (ex: 25%, 50%, 75%)	df.quantile(0.5)
unique	고유값 보기(중복값X)	df['col'].unique()
corr	상관관계(상관계수)	df.corr()

📌 분위수란?

데이터를 백분율로 나눈 기준값

25% 분위수 (Q1): 하위 25% 값
50% 분위수 (Q2 = 중앙값)
75% 분위수 (Q3): 상위 25% 이전까지

📌 describe() 함수 하나로 요약 통계 끝!

df.describe()

항목 의미

count	데이터 수
mean	평균
std	표준편차
min	최소값
25%	Q1
50%	중앙값
75%	Q3
max	최대값

문자 데이터는 df.describe(include='object') 사용

📊 상관관계 분석: df.corr()

2개의 숫자형 데이터가 같이 움직이는지 분석

상관계수 값 해석

1에 가까움	정비례
-1에 가까움	반비례
0 근처	관련 거의 없음

예시 요약 (판다스 기반):

# 평균
df['age'].mean()  # 평균 나이

# 중앙값
df['fare'].median()

# 분위수
df['age'].quantile(0.25)  # Q1

# 여러 통계 한번에 보기
df['age'].agg(['min', 'max', 'mean', 'count'])

# 상관관계
df.corr()

요약 노트 ✏️

기술통계는 데이터의 전체 모습을 요약해줌
describe() 하나로 기본 통계는 대부분 커버됨
분위수, 평균, 표준편차 등을 통해 이상치나 퍼짐 정도를 확인
**df.corr()**으로는 변수 간 관련성을 확인

'학습 > 기초통계' 카테고리의 다른 글

🧪 7. 가설검정 & 신뢰구간 & ANOVA (쉽게 배우는 통계적 추론) (0)	2025.05.12
🧪 5. 모집단, 표본, 중심극한정리 (데이터 분석의 시작점) (0)	2025.05.12
📚 4. 확률분포의 종류 (쉽게 이해하기) (0)	2025.05.12
🧠 3. 기댓값과 분산 (평균과 퍼짐 이해하기) (0)	2025.05.12
🎲 2. 확률분포와 확률함수 (0)	2025.05.12

Diary

📊 6. 기술통계 (Descriptive Statistics)

✅ 기술통계는 어떤 걸 분석할까?

🧮 대표적인 통계 수치들

📌 분위수란?

📌 describe() 함수 하나로 요약 통계 끝!

📊 상관관계 분석: df.corr()

예시 요약 (판다스 기반):

요약 노트 ✏️

'학습 > 기초통계' 카테고리의 다른 글

티스토리툴바

📊 6. 기술통계 (Descriptive Statistics)

✅ 기술통계는 어떤 걸 분석할까?

🧮 대표적인 통계 수치들

📌 분위수란?

📌 describe() 함수 하나로 요약 통계 끝!

📊 상관관계 분석: df.corr()

예시 요약 (판다스 기반):

요약 노트 ✏️

'학습 > 기초통계' 카테고리의 다른 글

관련글

티스토리툴바