特集記事

話題の「ランキング学習」とは？回帰法・分類法との違いからモデル構築まで

2018/12/17 11:00

ポスト

　近年、「AI」という言葉をよく見かける背景には、機械学習を使った多様な手法による飛躍的進歩があります。この機械学習の主な手法の1つに「教師あり学習」があります。教師あり学習には大きく分けて2つのタイプがあります。1つは、ある画像を「犬か否か」推定、あるいは「犬、猫、鳥」のどれに分類されるか推定する「分類」です。もう1つは、ある出来事が起こる確率を推定する「回帰」です。どちらのタイプも教師あり学習ではよく用いられますが、本記事で紹介する「ランキング学習」は一般的な「分類」や「回帰」とは少し異なります。ランキング学習は近年発展してきた技術のため、英語の情報がほとんどで、日本語の情報は非常に少ないです。本記事ではすでに分類や回帰などの機械学習をやっている人を対象に、ランキング学習を詳細に解説していきたいと思います。

ポスト

本稿は、「カムのブログ」に投稿されたブログ記事「ランキング学習～情報検索への機械学習の応用～」を加筆修正して転載したものです。

モチベーション

　検索エンジンに対して、ユーザがクエリを投げて検索する場面を考えましょう。下の図は、検索エンジンが管理する文書を全体集合とするベン図です。右側の円は、ユーザがクエリQを検索したときに、検索エンジンから返してほしいと考える文書集合を表します。一方、左側の円はクエリQを検索したときに実際に検索エンジンから返される文書集合です。

　右側と左側の円が重なっている部分Bはシステムが正しく返せた文書集合と言えます。左側の円のうち、右側の円と重なっていない部分Aはシステムが誤って返してしまった文書集合で、「検索誤り」と言い、逆にCは「検索漏れ」と言います。

　検索漏れと検索誤りを完全になくすのが理想的ですが、それは非常に難しいことです。検索システムができるのは（A+B）を大きく、または小さくすることです。例えば小さくすると、検索誤りを減らすことができますが、検索漏れが悪化します。

　それに対して大きくすると、ユーザの要らない文書が多くなり、求めている文書が見つかりにくくなるので検索誤りが悪化します。

　検索漏れと検索誤りはトレードオフの関係にあり、この関係は適合率と再現率のトレードオフで説明できます。検索結果のうちにどの程度正しい（返してほしい）結果が含まれるかを示す適合率（P：Precision）と、返してほしい結果のうち、どの程度が実際に検索結果として表れるかを示す再現率（R：Recall）は以下のように表現できます。

　再現率も適合率も１が最大値です。図3のように左側の円を大きくすると、（A+B）>>Bなので適合率が下がりますが、（B+C）≒Bなので再現率が上がります（1に近づきます）。一方、図2のように左側の円を小さくすると、（A+B）≒Bなので適合率が上がり、（B+C）>>Bなので再現率が下がります。

　Aが大きくなることで適合率が下がる問題の解決策として、ランキング学習が使えます。Bに含まれる文書を上位に表示されるようにランキングを調整すれば、ユーザが求めている情報が見つかりやすくなります。

　ランキング学習では、まず通常の検索結果の上位N件を抽出します。次に、ランキング学習によって得られたモデルを使って、このN件をリランクすることでランキングをさらに改善します。

　例えばECサイトでは、ランキングの精度が1パーセント上がるだけで売り上げが大きく変わることもあります。そのため、上位N件のリランクといった、わずかな検索精度の向上であってもそれに挑む価値はあります。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
一般的な機械学習との違い

この記事は参考になりましたか？

印刷用を表示

ポスト

特集記事連載記事一覧: 【随時更新・まとめ読み】開発者のための「AWS re:Invent 2024」関連記事

開発者のための「WWDC 2024」関連発表まとめ

LeSSやSAFeなど、大規模アジャイルにおけるソフトウェア品質の課題とは？

もっと読む

この記事の著者: Kamuela Lau（カムエララウ）

　米国ハワイ州出身。2014年に米国マサチューセッツ州の Williams College を物理学と日本語学の二重専攻で卒業後来日。株式会社ロンウイットでランキング学習など機械学習を中心に、製品開発や顧客コンサルティングの業務に従事。米国の Georgia Institute of Technology ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事