
나이브 베이즈 분류기는 베이즈 정리를 이용해 어떤 대상이 어떤 범주에 속할 확률을 계산하여 분류하는 방법이다.
이때 대상의 여러 특징(예: 메일 속의 단어, 환자의 여러 증상)을 이용하지만, 각 특징이 서로 독립적으로 나타난다고 가정한다.
이 독립 가정이 현실적으로는 단순하며 다소 비현실적일 수 있지만, 계산을 크게 단순하게 만들어 준다.
나이브 베이즈는 다음과 같은 구조로 작동한다.
(특징1이 나타났을 때 스팸일 확률) × (특징2가 나타났을 때 스팸일 확률) × …× (스팸 메일이 애초에 등장할 확률) |
이 계산값과 다음을 비교하여, 더 높은 쪽을 최종 판단으로 선택한다.
(정상 메일일 확률 × 정상에서 해당 특징들이 나타날 확률들) |
즉, 나이브 베이즈 분류기는 “확률이 더 높은 쪽으로 분류한다”는 매우 합리적인 모델이며, 계산이 빠르고 구현이 간단하다는 장점 때문에 스팸 필터, 감성 분석, 의료 진단 초기 분류 모델 등 여러 분야에서 널리 사용된다.
어떤 이메일에 다음 단어가 있다고 하자:
조사해보니 스팸 메일에서는 이 단어들이 자주 나오고, 일반 메일에서는 거의 등장하지 않는다고 하자.
| 단어 | 스팸 메일에서 등장할 확률 | 정상 메일에서 등장할 확률 |
| 무료 | 0.40 | 0.02 |
| 당첨 | 0.20 | 0.01 |
| 클릭 | 0.50 | 0.03 |
스팸 메일 자체가 전체 메일 중 10%라고 가정하면, 이 이메일이 스팸일 확률은 다음처럼 계산된다.
스팸일 확률 = 0.40 × 0.20 × 0.50 × 0.10 정상일 확률 = 0.02 × 0.01 × 0.03 × 0.90 |
| 탐구주제 제목 | 핵심 탐구 내용 | 난이도 |
| 스팸메일에서 자주 등장하는 단어 분석하기 | 실제 이메일/인터넷 문구 모아 단어 출현 확률 조사 후 분류 실험 | 보통 |
| 영화 리뷰 긍·부정 감성 분류 실험 | 긍정/부정 리뷰에서 자주 등장하는 단어 조사 → 나이브 베이즈로 판단 | 보통~상 |
| 증상 조합으로 감기 가능성 추정하기 | 기침/발열/콧물 등 증상별 등장 확률을 기반으로 확률적 진단 모형 구성 | 낮음 |
| 가짜 뉴스 vs 진짜 뉴스의 단어 특징 비교 | 진짜 뉴스와 가짜 뉴스 기사에서 자주 등장하는 표현 비교 | 보통~상 |
| 학교 시험 문제 분류: 수학/국어/영어 문제 특징 비교 | 문제 텍스트의 단어를 이용해 교과목 자동 분류 실험 | 쉬움~보통 |
| [탐구주제찾기] 검사 결과를 그대로 믿어도 될까? 베이즈 정리로 보는 진단 확률 (0) | 2025.11.11 |
|---|---|
| 우리나라의 구강건강 관련 사업과 이용 방법 : 아동치과 주치의 시범사업 (0) | 2025.10.25 |
| 속도를 측정하는 세 가지 방식 – 레이더, 광학, 그리고 센서의 세계 (0) | 2025.10.24 |
| 바이킹의 움직임, 사인함수로 설명할 수 있을까? (0) | 2025.10.24 |
| 난임부부 시술비 정책 알아보자! 지역별 추가정책까지 (1) | 2025.05.24 |