Information Retrieval-12章

言語モデルを情報検索に用いる流れは,

と言った感じ.

まず言語モデルとはどういうものかについて.
有限オートマトンを思い出してもらって,

この図だと" I wish I wish I … "という言語列を持つ文書を生成する事ができる.
もちろん,こんなに簡単な文書は無いので,もっと複雑な確率で遷移するオートマトンを考えることになる.

自然言語で構成される文書の,それぞれの単語列,文字列が起こる確率を与えることで
確率有限オートマトンを得る.
その確率を与えることが課題となる.

ナイーブベイズと言語モデルの生成モデルを比較する.

そのための手順.

それぞれの文書を言語モデルとして扱う.
文書をでランキング.
1. $P(q)$ はクエリについてであるので,全ての文書に対して値は同じ → 無視.
2. $P(d)$ は全ての文書で等しいと見なすことが出来る → 無視.
3. $P(q|d)$ は文書ｄが与えられたときのクエリｑが生成される確率(条件付き確率).
ランキングは $P(q|d)$ の値によるため,それを求めたい.

- 但し,( $t_k$ はクエリｑのk番目の語)で, $M_d$ は文書をモデル化したもの.
- ナイーブベイズにおいて条件付き独立であると仮定して計算する.
- 条件付き独立であるということは,それぞれの単語の出現確率が他の単語に影響されないということを表す.
- 参考：条件付き独立http://ibisforest.org/index.php?%E6%9D%A1%E4%BB%B6%E4%BB%98%E7%8B%AC%E7%AB%8B
とも書ける.
- sは"distinct term t in q"を表す.
- 但し, $tf_{t,q}$ はクエリｑにおける単語ｔの出現頻度を表す.
として計算される.
1. もしあるひとつでも $P(t|M_d) = 0$ となるtが存在すれば, $\Pi{ } P(t|M_d) = 0$ となってしまう！
2. スムージングする.
3. と置き換える.
  - 但し, $M_c$ は文書集合をモデル化したもの.
  - 多項単純ベイズモデルと言われる.

$P(q|d)$ ∝ $\Pi_{1\leq k\leq|q|}(\lambda(t_l|M_d) + (1 - \lambda)P(t_k|M_c)$

モデル化したもの：ユーザーがは思い浮かべている文書があり,それからクエリを生成する.

この方程式は,その文書の確率を示している.

結構似ている部分が多い
1. $tf$ なんかはどちらでも使われている.
2. 確率,というものは長さの正規化に近い.
3. とはに影響を与える.
  - 文書集合内では珍しい単語がある文書で頻出ならば,その単語はランキングに重要である.
違うところは
1. 言語モデルは確率論に従う,ということ.
2. ベクトル空間モデルでは類似性などに従う.
3. $df$ か $cf$ か.