image
image
image
image
image

위의 그림의 경우 no spam 그룹에는 Buy 와 Cheap이 동시에 들어간 단어가 없다. 

그렇지만 아래와 같이 간단히 0 %라고 단정할수는 없다. 자료의 수가 적어서 없을수 있지만 자료의 수가 많아지면 있을수 있기 때문이다. 

probability theory를 이용해서 확률을 가정할수 있다. 위의 예시의 경우 buy가 들어간 no spam 이메일의 발생확률과 cheap이 들어간 no spam 이메일의 발생확률의 곱으로 둘다가들어간 이메일의 발생확률을 얻을수 있으며 확률과 no spam 이메일 전체 갯수의 곱으로 예상 buy와 cheap이 동시에 들어간 이메일 수를 구할수 있다. 이때 buy와 cheap이 서로 independent하다는 naive한 가정을 기반하고있다. 그래서 이름이 naive bayes인것이다. 

image
image
image
image
image
image

Naive Beyes 에서는 Buy와 Cheap이 완전히 독립된 항목이라고 가정하고 확률 계산을 한다. 

image
image
image
image
image
image
image

위 그림에서 밑변은 P(B)를 구하는 부분이며. Total Probability Theorem https://youtu.be/8odFouBR2wE?t=208 를 이용한 부분이다. 

image
image

Comments are closed.

Post Navigation