2011-01-01から1年間の記事一覧
pythonでクローラを作ってて,Googleの検索結果のページを使えるようにするためにちょっと工夫が必要だったのでメモ. urllib, urllib2 pythonでwebページの情報を利用とするとなると, urllib urllib2 のどちらかを使うことになるかと思います. 基本的には…
この記事(2011-11-08 - I/O Error : My Knowledge)で 三項演算子について軽く書いて,自分で使ってみてると上手くいかないことが起きたのでメモ. コード例 from random import randint def r(): i, j = randint(-10, 10), randint(-10, 10) print 'i =', i, '…
FizzBuzz なんとなくFizzBuzzとかやったり解答例FizzBuzz - Pythonのお勉強を眺めてると for i in range(100):print i%3/2*"Fizz"+i%5/4*"Buzz"or-~iというワンライナーを見つけて, ~iって何だよ,ってなって調べてみた. ビット演算子 Pythonにはビット演算子…
PIL 前回のエントリ (Python Image Library(PIL)の使い方 - I/O Error : My Knowledge)では import Imageとしていましたが、きちんとしたPILのインストールを行ったのでメモ。 ダウンロード まずはPILの公式サイト(Python Imaging Library (PIL))から ソース…
またしてもpython chanllengeです. PILを用いることになったのでお勉強. 今回はコードとして全部書いてしまいました. PILを用意 easy_install PILもしくは pip install PILとかでいけるはずです. easy_installとかpipについてはググッてください. 用意した物…
python challengeでzipfileを使うことがあったので. まずは import zipfileでインポートする. ZipFileオブジェクトの扱い 扱う対象をchannel.zipとする.(python challengeより) s_zip = zipfile.ZipFile("channel.zip", "r")でzipオブジェクトとして扱えるよ…
言語モデルで情報検索 言語モデルを情報検索に用いる流れは, 文書を生成モデルとみなして,クエリもそれによって生成されるものとする. 上の生成モデルを定義する. それを評価する. クエリを最も生成しそうな生成モデルである文書を見つけ出す. その文書を結…
正直どうでもいい上にめっっっちゃ簡単なことを調べてみたので一応. 調べたこと 例えば今 n = 1 として, n に 2 をしたい時に n += 1とするべきか, n = 2とするべきか. 調べ方 変数を1増やしたい時にどっちがいいかを判定するために, pass(何もしない) 1大き…
最近PythonChallengeにほんの少し取り組んでいて,そこで 初めてPickleモジュールを使うことになったのでメモ. pickleとは python特有のデータ形式のことであり, ざっくり言えばバイナリで保存するのではなく, 全部文字列にして扱いましょう,っていう感じだと…
ファイル読み込み コード内で既に存在しているファイル(例えばinput.txt)を開きたい時に, f = open("input.txt").readlines() とやっても, g = [line for line in file("input.txt")]とやっても結果は同じ. というかfileとopenの違いが分かりませんでしたw …
再現率・適合率 前回のエントリの引用. Precision:適合率 検索結果に適合しない文書が入ってない割合 Recall:再現率 適合する全ての文書の内,どれだけ拾うことが出来たかの割合 計算式は以下の表を用いて Relevant Nonrelevant Retrieved tp fp Not Retrieve…
IIR第8章 テスト Search Engineをどうやって評価するのか. インデックス作成の速さ 検索の速さ クエリ作成の自由度 ユーザーインターフェース 無料? といったところ. まず 速さや時間といった定量的なもの についての評価は容易い. しかし,重要なのは ユー…
IIR第6章 第6章 Ranked Retrieval 第1章で取り扱ったboolean検索の問題点を解決するために, Ranked retrieval:ランキング検索を考える. boolean検索の問題点 検索queryを書くのが難しい. 検索結果が多すぎるor少なすぎる (andは減らしすぎ,orは増やしすぎる)…
Introduction of Infomation Retrieval(IIR)について 適当&もしかしたら間違ってる,なんで参考にして失敗しても責任とりませんので悪しからず. 第一章 Information Retrieval(IR):情報検索 IRは膨大なデータのcollectionから欲しい情報を持つunstructed natu…
とりあえず備忘録でpythonでの正規表現でちょっと困ったところのメモ. まずは、 import re #reモジュールのインポート 正規表現を何回も用いるときは、 regex = re.compile(pattern) #patternは正規表現を用いると早くなる。 コンパイルせずに使うと重くなる…
なんとなく始めてみました。 ブログ。 ぶろぐ。昔手帳に日記つけてた事もあったけど続かないし、ブログなんて…と思ってたけど、授業が暇すぎるのでなんとなく始めてみました(二回目続かないと思うけど、暇な時は書くかも。