상세 컨텐츠

본문 제목

[탐구주제찾기] 나이브 베이즈 분류기: 확률로 판단하는 ‘단순하지만 강력한’ 분류 방법

읽기 자료

by better루시아 2025. 11. 11. 23:21

본문

 

나이브 베이즈 분류기 스팸 메일

나이브 베이즈 분류기 개요

나이브 베이즈 분류기는 베이즈 정리를 이용해 어떤 대상이 어떤 범주에 속할 확률을 계산하여 분류하는 방법이다.

이때 대상의 여러 특징(예: 메일 속의 단어, 환자의 여러 증상)을 이용하지만, 각 특징이 서로 독립적으로 나타난다고 가정한다.

이 독립 가정이 현실적으로는 단순하며 다소 비현실적일 수 있지만, 계산을 크게 단순하게 만들어 준다.

 

나이브 베이즈는 다음과 같은 구조로 작동한다.


(특징1이 나타났을 때 스팸일 확률) × (특징2가 나타났을 때 스팸일 확률) × …× (스팸 메일이 애초에 등장할 확률)

 

 

이 계산값과 다음을 비교하여, 더 높은 쪽을 최종 판단으로 선택한다.


(정상 메일일 확률 × 정상에서 해당 특징들이 나타날 확률들)

 

즉, 나이브 베이즈 분류기는 “확률이 더 높은 쪽으로 분류한다”는 매우 합리적인 모델이며, 계산이 빠르고 구현이 간단하다는 장점 때문에 스팸 필터, 감성 분석, 의료 진단 초기 분류 모델 등 여러 분야에서 널리 사용된다.

 

 

나이브 베이즈 분류기 예시: 스팸 메일 필터

어떤 이메일에 다음 단어가 있다고 하자:

  • “무료”
  • “당첨”
  • “클릭”

조사해보니 스팸 메일에서는 이 단어들이 자주 나오고, 일반 메일에서는 거의 등장하지 않는다고 하자.  

단어 스팸 메일에서 등장할 확률 정상 메일에서 등장할 확률
무료 0.40 0.02
당첨 0.20 0.01
클릭 0.50 0.03

 

 

스팸 메일 자체가 전체 메일 중 10%라고 가정하면, 이 이메일이 스팸일 확률은 다음처럼 계산된다.


스팸일 확률 = 0.40 × 0.20 × 0.50 × 0.10
정상일 확률 = 0.02 × 0.01 × 0.03 × 0.90
 
두 값을 비교해 더 큰 쪽이 최종 분류 결과가 된다.
이처럼 나이브 베이즈는 각 특징(단어)들을 독립적으로 곱해 확률을 비교하여 판단한다.
  • 스팸 확률이 훨씬 크므로 → 이 메일은 스팸!

 


탐구 주제 추천

    

탐구주제 제목 핵심 탐구 내용 난이도
스팸메일에서 자주 등장하는 단어 분석하기 실제 이메일/인터넷 문구 모아 단어 출현 확률 조사 후 분류 실험 보통
영화 리뷰 긍·부정 감성 분류 실험 긍정/부정 리뷰에서 자주 등장하는 단어 조사 → 나이브 베이즈로 판단 보통~상
증상 조합으로 감기 가능성 추정하기 기침/발열/콧물 등 증상별 등장 확률을 기반으로 확률적 진단 모형 구성 낮음
가짜 뉴스 vs 진짜 뉴스의 단어 특징 비교 진짜 뉴스와 가짜 뉴스 기사에서 자주 등장하는 표현 비교 보통~상
학교 시험 문제 분류: 수학/국어/영어 문제 특징 비교 문제 텍스트의 단어를 이용해 교과목 자동 분류 실험 쉬움~보통
반응형

관련글 더보기