再現率と適合率
検索システムや検査などの識別問題でよく使われる「再現率」と「適合率」。
教科書に書かれている説明でなんとなく理解はしているものの、ふと思い出そうとしたときにどっちがどっちだったか曖昧になることが多い。
そこで、理解を深めることを目的に、わかりやすくまとめられている記事を探してみた。
まず教科書上の定義からすると、以下の通りとなる。
- 再現率(Recall)= 真陽性(True Positive)/ (真陽性+偽陰性(False Negative))
- 適合率(Precision) = 真陽性(True Positive)/(真陽性+偽陽性(False Positive))
分子はどちらとも同じで、分母の一部が偽陰性か偽陽性かが異なるだけ。ただ、数式中の記号をそのまま読み上げても、やっぱりイメージが湧かない。
そこで、参考記事の例を拝借し、病気の検査、犬の写真検索で言い表してみると、
- 再現率:病気の人のうち、検査により本当に病気である人を発見できる確率。あるいは、犬の写真のうち、検索により犬の写真を正しく発見できる確率。
- 適合率:検査により陽性反応が出たとき(検査結果)、それが本当に病気である確率。あるいは、検索により犬の写真が見つかったとき(検索結果)、それが本当に犬の写真である確率。
となり、実世界でこれら指標がどのような場面で適用されうるかも含め、少しクリアになった気がする。
ちなみに再現率と適合率はトレードオフの関係にあるので、その両方を加味して性能を評価するために、両者の調和平均(逆数の和の逆数×2)をとったF値が使われるケースもある。