ナイーブベイズをキャッチアップするためにベイズの定理を復習する

最近テキストを解析してごにょごにょする仕事をよくしているのですが、精度は高くないけど、比較的少ないデータ量でもいい感じに振る舞ってくれるナイーブベイズ分類器で実装を試したりしています。

scikit-learnを使っていると特に何も考えずに実装ができてしまうのですが、基本に立ち返ってナイーブベイズ分類器がどんなものなのかをキャッチアップしたいと思ってます。まずはベイズの定理から整理してみます。

こちらのエントリが非常に丁寧に解説されています。

ベイズの定理

ひとことで言ってしまうと、ベイズの定理を使って分類問題を解こうというもので、こちらがベイズの定理です。

さて、これでどうやって分類問題を解こうというのでしょうかね。定理を構成する項を詳しく見てみますか。

迷惑メールの例で考えて例えば以下のように表してみます。

既にわかっている、迷惑メールである確率、もしくはそうではない確率が入ります。例えば、日本でやりとりされているメールの6割が迷惑メールであるという統計が存在するとしましょう。

すると $P(A_1) = 0.6$ 、 $P(A_2) = 0.4$ となります。

$P(B_j)$ も同様ですね。統計に使用されている全てのメールの中から「完全無料」という文字列が含まれる確率、そうではない確率が入ります。

左辺の式ですが、これが求めたい確率になるので、

ということになります。

では実際に計算してみます。まずはベイズの定理の右辺の分母に全確率の公式をあてはめてこのようにする(ごめんなさい時間がないので全確率の公式の詳細は割愛…)。

この式に上記で例示した事前確率を代入するとこのようになります。

「完全無料」という文字列が含まれるメールは99.9%迷惑メールであるという結果になってしまった。。あれれ。こんな数値になるはずじゃなかった。どこか間違えてますね。あとで見直してみます。