レトリバセミナーで情報検索の基礎の話をしました

4月26日にレトリバセミナーで情報検索の基礎の話をしました。

前回は12月にPFxセミナーでGoogle Cardboardとレーザーカッターを作った話をしました。それから間もなく、オフィスが大手町から飯田橋に移転して、レトリバでもセミナーをするようになりました。何を話すかは迷ったのですが、新しく加わった人やこれから加わる人のために、会社の製品の原点の技術についておさらいしておくのが良いかなと思い、情報検索の基礎について話すことに決めました。エンジニアでない人にも理解してもらえたらと思い、細かい話はバッサリと落として、基礎的な話をメインにしました。以下スライドです。

スライドの最後で参考文献を紹介したのですが、ここでもそれも含めていくつか情報検索の書籍についてまとめておこうと思います。

いまから情報検索を学ぶのであれば、Manning先生らの著書(Introduction to Information Retrieval)を翻訳した、「情報検索の基礎」という本がおすすめです。情報検索の研究トピックが一から幅広く書かれています。研究者や学生、エンジニアの方におすすめです。

また、「情報検索アルゴリズム」にも目を通しておくと良いかもしれません。こちらは逐次検索の話で、KMP法やBM法、AC法について詳しく書かれていますし、索引検索ではパトリシア・トライや接尾辞配列についても記述があります。

困ったときは「Modern Information Retrieval」を読むと良いかもしれません。英語になってしまいますが、圧倒的なボリューム(900ページ)で網羅しています。すべては読めてませんが、困ったときに関係する部分だけ参照してます。

自分で検索エンジンを作って理解を深めたい人には、「検索エンジン自作入門」がおすすめです。C言語でサンプルの検索エンジンwiserを実装していくのですが、転置インデックスの圧縮までやるので、読み応えがあります。著者の方々は企業や大学で実際に検索エンジン(SennaやGroongaなど)を開発していた人たちなので、安心して読めます。個人的には、付録に書いてある、動的なインデックス更新、インデックスのマージ戦略、インデックスの分散や複製の話が面白かったです。

オープンソースの検索エンジンを使ってシステムを構築したいという人には、「Apache Solr入門」の改訂第3版が最近(4/27)出ています(まだ読めていない)。

数式やプログラムはちょっと分からないという人には、「検索エンジンはなぜ見つけるのか」がおすすめです。こちらは未来検索ブラジルの森さんが書かれた本ですが、検索エンジンの仕組みがイラストと平易な言葉で説明されています。覚えている限りでは、数式は一度も出てこなかったと思います。

以上、発表資料と情報検索の書籍の紹介でした。

スポンサーリンク
レスポンシブ広告




レスポンシブ広告




スポンサーリンク
レスポンシブ広告




コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です