본문 바로가기
데이터분석데브코스 8/이론

8 - 21. 이미지 & 텍스트 처리

by DataJ 2025. 5. 29.

✅ [1부] 이미지 처리: CNN (Convolutional Neural Network)

📌 1. 사람의 시각 정보 처리 방식

  • 사람이 무언가를 본다는 것은 다음과 같은 과정입니다:
    1. 시야 내의 작은 단위를 분석하고
    2. 주변 정보를 통합
    3. 점차 상위 개념으로 인식 구조를 쌓는 것

예: 선(직선/곡선) → 윤곽 → 얼굴 형태 → 사람 식별

  • 이를 기계(딥러닝)가 모방한 것이 바로 CNN입니다.

📌 2. CNN의 구조

단계 설명

Convolution(합성곱) 이미지에서 작은 필터로 특징 추출
Pooling(풀링) 특징 중 중요한 것만 추려내어 축소 (상위 개념 생성)
반복(Stacking) 계층적으로 반복하여 고수준 정보 학습
Fully Connected Layer 최종 예측 (분류/탐지 등)을 수행

📌 CNN은 특징 추출 + 구조적 요약 + 분류/예측을 결합한 구조입니다.


🧠 추가 설명: CNN이 강력한 이유

  • 지역 정보만 고려해도 전체 패턴 파악 가능 (시각적 인식과 유사)
  • 이미지에서 중요한 정보만 선택적으로 강조함 (효율적 처리)
  • 필터를 통해 다양한 시각 패턴을 학습 가능 (엣지, 텍스처, 모양 등)

✅ [2부] 텍스트 처리: RNN (Recurrent Neural Network)

📌 1. 사람이 문장을 읽는 방식

  • 우리는 문장을 왼쪽에서 오른쪽으로 차례대로 읽으면서:
    1. 단어의 의미를 이해하고
    2. 이전 단어들과 연결지어
    3. 점점 문장의 전체 의미를 파악해 나감

예: “아침 먹고 학교를 갑니다.”

→ 아침(시간)인가? → 먹고? 식사? → 학교? 아침밥 먹고 학교 가는구나!


📌 2. 기계가 문장을 읽는 방법: RNN

  • RNN은 사람처럼 데이터를 순차적으로 받아들이는 모델
  • 입력 순서에 따라 **기억(= hidden state)**을 업데이트하며 다음 정보를 처리
  • 입력과 출력은 다음과 같이 표현됨:
x₁ → h₁ → x₂ → h₂ → x₃ → h₃ → ... (RNN 구조)
  • 여기서 x₁, x₂는 입력 단어, h₁, h₂는 각각의 **상태 메모리(hidden state)**를 뜻함

📌 3. Attention 모듈이 필요한 이유

  • 실제로 모든 단어가 중요하지는 않음
    • 예: “The”, “a”, “is” 같은 단어보다는 키워드가 더 중요
  • 사람이 자연스럽게 중요한 단어에 집중하는 것처럼,
  • 딥러닝 모델도 **중요 단어에 주목(Attention)**하게 만듦

📌 이를 Attention Module이라고 하며, 대표적으로 Transformer, BERT, GPT에 적용됩니다.


✅ 요약 표: 이미지 vs 텍스트 처리

처리 대상 대표 모델 구조 요약 특징

이미지 CNN 합성곱 + 풀링 + 반복 시각 특징 추출에 최적화
텍스트 RNN → Attention 순차 처리 + 기억 + 주의집중 순서와 문맥 고려, 문장 구조 파악