Information retrieval 情報探索 Recall(再現率)とPrecision(適合率)

googleとかで検索するときにいかにノイズがなく有益なものを網羅するかということが問題になるがそれを表したのがRecallとPrecision。


大雑把に自分の理解で書くとこんな感じ

Recall(再現率)
存在するデータでほしいデータにを引っ張ってくる網羅性。
例えば美味しい醤油ラーメンをだす店が知りたい場合「ラーメン 醤油」
で検索しようとする。その時ウェブ上に存在する関連するデータがウェブ上に100サイトあったとして検索エンジンが90サイトを見つけてきたら再現率は90/100で90%である。

Precision(適合率)
検索結果のうち実際にほしい情報の割合。さっきの例でいうと90サイト見つけてきたはいいけどほとんどが美味しい醤油ラーメンの作り方だったら適合率は下がってしまう


これらの関係はトレードオフで、再現率が高くなればなるほど、適合率は
低くなる。また逆も然り。言い換えるならば「網羅性を高めようとすればするほど余計な情報(ノイズ)が増えてしまう。」また「余計な情報を削除しようとすればするほど網羅性は下がってしまう(重要な情報までも削除してしまう・・)」って感じだろうか。。。


A = 関連性があり、得られた情報
B = 関連性があるが得られなかった(検索エンジンが見つけて来れなかった)情報
C = 関連性もなく検索エンジンが取ってこなかった情報

計算方法は以下の通り
Recall = A/A+B
Precision = A/A+C




このサイトがわかりやすい
参考 http://goo.gl/psUGP