●迷惑メールフィルター ダブルディフェンス多くのユーザさまから高い評価をいただいている「学習型迷惑メールフィルター」。今回は、これをさらに“二重構造”にすることによって、性能を大きく向上させることに成功しました。では、どのくらい精度が向上したのか? その質問にお答えする前に、まず学習型迷惑メールフィルターの性能についてご説明しなければなりません。
−「かしこい学習型フィルター」って、どんなもの?
学習型フィルターの性能というと、「精度」(誤判定と正判定の割合)ばかり注目されますが、「精度」は学習の結果であり、「学習型」を名乗るフィルターであれば、多かれ少なかれ学習さえさせれば、「そこそこの精度」を達成することは可能です。よいフィルターと、よくないフィルターの違いは、実は「同じ精度を達成するために、(利用者が)どれだけの労力を払う必要があるのか」なのです。
−「学習精度」と「学習効率」のジレンマ
迷惑メール学習/非迷惑メール学習を繰り返したとき、どれだけ早く最終的に期待される判定精度に達するか。これを「学習効率」と呼ぶことにしましょう。学習効率がよければ、利用者はより少ない操作で期待する効果を得られますが、学習効率が悪いと「いくら学習させても、ぜんぜん賢くならない!」ということになってしまいます。
しかし、この「学習効率」というのが、かなり曲者です。これを上げるために、さまざまなチューニングを行うのですが、ちょっとやりすぎると、1通の迷惑メールを学習すると10通の類似するメールを迷惑メールと判定できるようになる代わりに、5通の非迷惑メールも迷惑メールとして道連れにしてしまう「不安定」なフィルターになってしまいます。逆に遠慮しすぎると、類似するメールを取りこぼしてしまう「鈍い」フィルターになってしまいます。
さらに、これが最大の悩みの種だったのですが、最初は「いい感じで」学習が進むのですが、学習が進むにつれて、徐々に学習効率が低下してくるのです。これは例えば、一番最初に1通目のメールを学習させるのと、1,000通のメールを学習したあとにもう1通学習させるのとでは、効率がまったく異なります。当然、後者の方がメール1通あたりの「重み」が軽くなるためであり、「学習型」の宿命ともいえます。つまり、精度を上げるには学習量を稼がなければならないし、学習量を増やすと、学習効率(学習による感度)が下がってしまいます。
−「知恵袋のおじいちゃん」+「何でもすぐに覚えてしまう孫」
この矛盾する要求を満たすために考え出されたのが、「ダブルディフェンス」です。学習量の豊富な「マスターフィルター」が精度をアップし、学習量を抑えた「ユーザフィルター」が学習効率を維持するという役割分担を行うのです。昔のことをよく知っている知恵袋のおじいちゃん(でも、新しいことは、ちと苦手)と、知らないことだらけだけど、何でもすぐに覚えてしまう、好奇心旺盛なやんちゃ坊主の孫が、二人で力を合わせている姿を想像してみてください。
「Shuriken 2008」には、さまざまな迷惑メールを学習させたマスターフィルター用の「外部学習データ」を同梱してゆきます。これによって、「Shuriken」を使いはじめたその日から、従来バージョン並みか、それ以上の学習効率を保ちながら、高い「初期精度」を発揮することができるのです。もし、すでに十分学習を行った学習データをお持ちで、「最近、学習が効きにくくなった」とお感じなら、それを外部学習データに設定すれば、「性能」がアップするかもしれませんよ。
で、最初の質問、「どのくらい精度が向上したのですか?」ですが、弊社内での基準データを使って「Shuriken Pro4 /R.2」と比較した結果ですが、初期判定精度が10〜40%向上し、しかも学習効率もアップすることが確認されています。
●「フォルダウォッチ」「受信箱の自動クリーンアップ」
私たちはいつも、ユーザさまに「バージョンアップしてよかった」と感じていただける新機能を開発し続けたいと考えています。前バージョン「Shuriken 2007」では、「送信画面の宛先設定」がそれでした。開発者としては、満を持してご提供した新機能だったのですが、法人ユーザさまからはご好評をいただいたものの、個人のユーザさまからはほとんど反応がありませんでした。「こんなに便利なのに、なぜだろう」と思っていたのですが、自宅でメールを送るときに、ふと気づきました。自宅で使うときは大勢にメールを同報することはほとんどないため、新しい入力欄は大きくて邪魔なだけだったのです(泣)。そこで今回、おまけとして、宛先入力欄を1行に折りたたむ機能を追加しました。
−よし、では、誰でもよく使う「一覧画面」の機能で、とびきり便利なものを作ろう
これが、今回の新機能を開発する最初の動機でした。で、何を作るか? やはり、私が会社でも自宅でも、一番手を焼いているのは、メールの整理です。いったん受信箱で受けたメールでも、不要ものは削除するし、仕事のメールは、用事が終われば「処理済み」というフォルダに移動して、とりあえず保存しています。また、ニュースやメルマガ、MLなどのメールは、それぞれのフォルダに自動仕分けしています。そこで、このような使い方をそのまま支援する仕組みを作りたいと考えました。
こうしてできたのが「フォルダウォッチ」と「受信箱の自動クリーンアップ」です。うまく使ってもらえたら、きっとメールの整理と活用に効果を発揮すると思います(なかには「メールは全部受信箱に入れたままで、削除も移動もしない」という方もいらっしゃるかもしれませんが、これを機に「仕分け」をお試しいただいてはいかがでしょうか?)。
ただ、「うまく使う」には、その目的とか仕組み、特に仕分け設定などについても、少しご理解いただく必要があります。どのように説明すれば開発者の意図が伝えられるか、知恵を絞って図にまとめました。下記URLから、ぜひそのご提案をご覧ください。
- 「Shuriken 2008」の新提案 かんたん・快適!メール整理術 - Just MyShop -:https://www.justmyshop.com/camp/shuriken2008/mail_seiri.html
((株)ジャストシステム)