Information Retrieval-1章

Introduction of Infomation Retrieval(IIR)について
適当&もしかしたら間違ってる,なんで参考にして失敗しても責任とりませんので悪しからず.

IRは膨大なデータのcollectionから欲しい情報を持つunstructed natureを持つmaterialを探し出す事.

documentの中に検索したいtermがあるかどうかを

で表す.

検索結果の良し悪しは適合率(precision)と再現率(recall)の2つを用いて計算される.

この２つはトレード・オフの関係
→ 検索して検索対象の全てを結果として返してしまえば,再現率は100%になるが、適合率は極小になる.

query_termを持つdocumentをそのdocIDでindex化する.
これによって大規模なデータから検索することが容易になる.
しかしindexが大きくなりすぎる → 転置index

term => docID(posting list)

term(Brutus) => [1,2,4,11,31,45,173,174]

term(Caesar) => [1,2,3,4,5,16,57,132]

term(Calpurnia) => [2,31,54,101]

これらの対応をまとめた物：inverted index(転置index)

それぞれ記憶することで容量の問題を解決する.

こうやって出来たindexをmergeしてsortする.

[2,4,8,16,32]
[1,2,3,5,8,13]

　　　　⇣

[2,8]

上でも述べたように,０か１かの検索.
基本はand, or, notの3つを使ってqueryを生成して検索する.
「あるか、ないか」を知りたい時はboolean検索で十分である

よりよいindexの構造などを考慮したい.

boolean検索で十分で無いときは, ranking searchが欲しい.

を使うなどして.
それについてはこれから….

petitviolet_blog