再現率・適合率

前回のエントリの引用.

Precision:適合率

検索結果に適合しない文書が入ってない割合

Recall:再現率

適合する全ての文書の内,どれだけ拾うことが出来たかの割合

計算式は以下の表を用いて

	Relevant	Nonrelevant
Retrieved	tp	fp
Not Retrieved	fn	tn

となる.

PとRはトレードオフの関係である.
検索結果として全ての文書を返せば,R→1となるがP→0となる.
条件を厳しくして適合文書をほんの少しだけ返せばPは大きくなるが,Rは小さくなる.

例を挙げてみる.

ランキング	1	2	3	4	5	6	7	8	9	10
適合文書?	○	×	○	×	○	○	×	×	×	×

この結果に対してPとRを求めると,

P = 4 / 10 = 0.4
R = 4 / 4 = 1.0

となることがわかる.
この値は検索結果10件に対しての値であるが,
検索結果として1件返した時のPとR
2件返したときのPとR
といったように順番に求めていく.
これを表に纏めると以下のようになる.

となる(計算式は省略).

検索結果における各再現率レベルでの適合率の平均,
つまり適合文書が得られた時点における適合率の値の平均値のこと.
上の例について考えれば,
適合文書が得られた時点での適合率の値は

となり,APは

となる.
計算式で示すと,
$\textstyle AP = \frac{1}{n} \sum^{}_{n} P_i$

これは上で求めた平均適合率の平均である.
適合文書が得られたそれぞれの時点での平均適合率を求めて,
それらの値の平均値を求めることで得られる.
ランキングの上位にどれだけ適合する文書が出現しているかの指標となる.

適合率を縦軸,再現率を横軸とするグラフを描いたときに,
各再現率においてその再現率以上における適合率の最大値をその再現率における適合率とする,ということ.
上の例