'일본어'에 해당되는 글 1건

  1. 2013.07.25 [위키백과번역] 나이브 베이즈 분류기(Naive Bayes classifier)



* 이 문서는 일본어 위키백과의 単純ベイズ分類器」를 번역한 것으로써, 오류가 있을 수 있습니다.

 

* 번역한 원본 문서는 한국날짜로 2013년 7월 22일 수집되었습니다.

   単純ベイズ分類器 - Wikipedia.mht

 

*'単純ベイズ分類器(단순베이즈분류기)'는 '나이브 베이즈 분류기'로 번역하였습니다.

 

* 위키백과 연결링크는 페이지가 존재하는 경우 한국어 또는 영어 페이지로 연결했습니다.

 

* 이해를 쉽게 하도록 하기 위하여 '단어를 이용한 신문기사의 종류 분류'를 예로 들자면

 

  본문에 나오는 '클래스(C)'는 분류할 부류를 뜻하므로 c의 종류는 '정치', '사회', '경제', 'IT/과학' 등이고

 

  본문에 나오는 '특징변수(F)'는 분류할 대상을 뜻하므로 문서 내에 포함된 단어의 수가 n개라면 f의 범위는 f1~fn입니다.

 

* 본문에서 말하는 평활화 기법인 Add-1 smoothing은 Laplace Smoothing 입니다.

 

 


 

 

나이브 베이즈 분류기

 

나이브 베이즈 분류기(영어: Naive Bayes classifier)는 단순한 확률적 분류기이다.

 

 

개요


 

나이브 베이즈 분류기의 기반 확률 모델은 강한(간단한) 독립가정을 적용한 베이즈 정리에 기반하고 있으며, 좀 더 정확하게 말하자면 「독립특징모델; independent feature model」라고 불러야 할 것이다.

 

확률모델의 성질로 인해 나이브 베이즈 분류기는 지도학습(supervised learning) 환경에서 효율적으로 훈련할 수 있다. 많은 실제 사례에서 나이브 베이즈 분류기의 파라미터를 추정하기 위해 최대우도추정법(最尤法; maximum likelihood estimation)을 사용한다. 즉, 나이브 베이즈 분류기를 사용하기 위해서 베이즈확률이나 그 외의 베이즈 기법을 사용할 필요는 없다.

 

구상[設計; design] 가정이 매우 단순함에도 불구하고 나이브 베이즈 분류기는 복잡한 실제 상황에서 예상보다 훨씬 잘 작동한다. 최근, 베이즈 분류 문제의 주의깊은 분석을 통해 나이브 베이즈 분류기의 효율성에 이론적인 이유가 있다는 것이 밝혀졌다. 나이브 베이지안 분류기의 장점은 분류에 필수적인 파라미터(변수군의 평군과 분산)을 추정하는 데 필요한 훈련 데이터 양이 적다는 점이다. 변수군은 독립적이라고 가정됐기 때문에 각 클래스에 대한 변수의 분산만이 필요하며, 공분산행렬 전체는 불필요하다.

 

 

나이브 베이즈 확률 모델


 

추상적으로 분류기의 확률모델은 다음과 같은 종속 클래스 변수 에 대한 조건부 모델이다. 클래스는 몇가지 특징변수 부터 에 의존한다.

 

   

 

문제는 특징 수 이 큰 경우, 또는 특징이 취할 수 있는 값의 범위가 큰 경우에 확률표를 토대로 한 것과 같은 모델들은 현실적이지 않다는 점이다. 따라서 모델을 좀 더 다루기 쉽게 변형시킨다.

 

베이즈 정리를 써서 다음과 같이 된다.

 

   

 

이 식은 영어로 나타내면 다음과 같다. (Posterior=사후, Prior=사전, Likelihood=공산, Evidence=결과)

 

   

 

실질적으로 분모는 에 의존하지 않는 일정한 를 가지므로 분자만을 고려하면 된다. 분자는 다음과 같이 표현되는 결합확률 모델과 같다.

 

   

 

여기에 조건부 확률의 정의를 반복해서 적용하면 다음과 같이 쓸 수 있다.

 

   

 

여기서 「나이브(단순)」한 조건부 독립성의 가정이 등장한다. 각 특징변수 이 조건부로 또 다른 특징변수 와 독립이다. 즉, 다음이 성립된다.

 

   

 

그러면 동시모델은 다음과 같이 나타낼 수 있다.

 

   

 

즉, 위에서 서술한 독립성의 가정에서 클래스 변수 의 조건분포는 다음과 같이 나타낸다.

 

   

 

여기서 에만 의존하는 계수이며, 특징변수들의 값을 이미 알고 있으면 상수가 된다.

 

이와 같은 모델은 이른바 「클래스 사전 확률」 과 독립확률분포 로 나뉘어 있기 때문에 다루기가 쉽다. 개의 클래스가 있고  모델을 개의 파라미터로 표현할 때 대응하는 나이브 베이즈 모델은 개의 파라미터를 가진다. 2항분류에서는 이며 은 예측에 사용되는 2값의 특징의 개수이다.

 

 

매개 변수 추정


 

모든 모델 파라미터(즉, 클래스 사전확률과 특징확률 분포)는 훈련된 집합에서 상대도수에 따라 추정할 수 있다. 이는 각각 확률 최대우도추정량이다. 이산적이 않은 특징의 경우 사전에 이산화(離散化; discretization)를 할 필요가 있다. 이산화에는 자율기법(즉흥적인 기법; unsupervised)과 교사기법(훈련 데이터에 근거한 기법; supervised)이 있다.

 

어떤 클래스와 특징값의 조합이 훈련에서는 나타나지 않는 경우, 도수에 근거한 확률추정은 0이 된다. 이것을 곱셈에 이용하면 곱에 0이 된다는 문제가 생긴다. 이를 막기 위해 확률 값의 추정을 약간 수정하여 어떤 조합의 확률값도 0이 되지 않도록 하는 방법이 널리 쓰인다. (Pseudo count; 의사 수)

 

 

확률 모델의 분류기 구축


 

지금까지의 설명으로부터 독립특징모델, 즉 나이브 베이지안 확률 모델이 도출되었다. 나이브 베이즈 분류기는 그 모델에 결정규칙을 합친 것이다. 흔히 쓰이는 결정규칙은 가장 그럴듯한 가설을 채용하는 방법으로, 최대사후확률(MAP) 결정규칙이라고 한다. 이러한 분류기를 함수 classify라고 하면 다음과 같이 나타낼 수 있다.

 

   

 


* 이후의 내용은 번역하지 않았습니다.

* 원문에서 이어지는 목차는 '논의', '예: 문서 분류', 'Complement Naive Bayes', '각주', '참고문헌', '관련 항목', '외부 링크', '소프트웨어' 입니다.

Posted by Kugi
,