情報検索:検索エンジンの実装と評価 第 8 章 確率的情報検索

この記事は 「情報検索:検索エンジンの実装と評価」(Buttcher本) Advent Calendar 2020 の 25 日目の記事です.

この記事では第 8 章を最初から解説する...予定だったのですが,8.1 から 8.5 までの話,つまり確率的ランキング原理から BM25 の導出までについては,既に素晴らしい日本語解説が存在するため,この部分に関してはそちらを御覧ください12.また,導出などはどうでもいい,とにかく BM25 の式の意味を知りたい,という人は解説動画34を見るとよいと思います.TF-IDF から BM25 までを非常に平易に説明してくれています.

この記事では,8.6 と 8.7 について解説をしていきます.

8.6 Relevance …

more ...

LightGBM でかんたん Learning to Rank

概要

LightGBM には LambdaRank が実装されており,簡単にランキング学習ができるようになっている. しかし残念なことに,日本語で試してみた例は非常に少ない. 特に,実際にデータ用意して学習し,評価するところまでやって公開している例がほぼ見当たらない.

そこで,ランキング学習の練習を兼ねて,データの読み込み,モデルの学習,評価までを行う notebook を作成して公開した. Google Colab で作成しているので,Open in Colab のリンク先に行くことで,作成した notebook を Google Colab 上ですぐに実行することも可能にしている. データとしては,LightGBM が公式で用意している examples のデータを使用し,評価指標としては NDCG@10 を用いた.

作成した notebook

more ...