カンファレンス(2)
Revisiting Approximate Metric Optimization in the Age of Deep Neural Networks [Poster]
参考文献
Sebastian Bruch, Masrour Zoghi, Michael Bendersky, and Marc Najork. 2019. Revisiting Approximate Metric Optimization in the Age of Deep Neural Networks. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 1241-1244. DOI: https://doi.org/10.1145/3331184.3331347
本ポスターセッションは、NDCG(Normalized Discounted Cumulative Gain)を近似してランキングモデルを構築する実験についてでした。NDCG はランキング学習で利用されている評価手法の1つで、以下の数式で計算できます。
上記式のZは理想のランキングで計算されたDCGです。数式で使うjはランクを表し、ランクを計算するのに、あるクエリに対して文書j よりスコア・関連度(モデルによって出力された値)の高い文書を数える必要があります。下記式(元の論文の式(5))で表現できます。
上記式の関数fはランキングモデルの出力でs < tであればI = 1(そうでないときは0)です。この式は微分不能かつ非連続のため、直接勾配降下法を適用できません。直接NDCGを目的関数として勾配降下法で利用できないため、LambdaMARTやLambdaRankのように間接的に最適化しようとしたりしますが、ランクを計算する関数をSigmoidで近似することで得られるApproxNDCG(近似NDCG)は微分可能なので直接勾配降下法で最適化できるようになります。
Web30KとYahoo!のテストセットに対して実験を行った結果、LightGBM のLambdaMART以外のランキングモデルより性能が良かったことが見られたそうです。
実験結果や論文の詳細などについては元の論文を参照してください。
その他の気になったセッション・ポスター
上記のセッション以外に、Investigating Passage-level Relevance and Its Role in Document-level Relevance Judgement、How Does Domain Expertise Affect Users’ Search Interaction and Outcome in Exploratory Search?、そしてSIGIR 2019のBest Paper Awardを受賞したVariance Reduction in Gradient Exploration for Online Learning to Rankも興味深いと感じたので、できれば後日追記したいと考えています。
ワークショップ
参考文献
Alexandra Olteanu, Jean Garcia-Gathright, Maarten de Rijke, and Michael D. Ekstrand. 2019. Workshop on Fairness, Accountability, Confidentiality, Transparency, and Safety in Information Retrieval (FACTS-IR). In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 1423-1425. DOI: https://doi.org/10.1145/3331184.3331644
最終日に開催された Workshop on Fairness, Accountability, Confidentiality, Transparency, and Safety in Information Retrieval (FACTS-IR) というワークショップに参加しました。FACTS-IR は「公平性」「アカウンタビリティー」「機密性」「透明性」「安全性」という5つの観点から責任を持った情報検索システムの開発やデプロイについてでした。
ワークショップの前半はカンファレンスセッションの同じように論文の発表がありましたが、後半は5~6人のグループでFACTSに関する可能な研究テーマについてディスカッションをしました。私のグループは「透明性の高い情報検索システムの構築」に関する研究すべきテーマについてディスカッションをしました。以下、後半で話し合いをした内容を簡単にまとめます。
情報検索において「透明性」とは何でしょうか。例えば、映画のリコメンデーションシステムで言えば、「あなたはXを見たからYをおすすめしています」とリコメンデーションの結果が説明されていることを、ある程度「透明性のあるリコメンデーションシステム」と言えるでしょう。もう1つの例として、ユーザAとユーザBが同じクエリを投げて、異なる結果・ランキングが返されたとき、または、あるはずの検索結果がないときに、その理由を説明できればそれもある程度、透明性のあるシステムと言えるでしょう。ただし、透明性のあるシステムを構築するにはUXと機密性のバランスと、複雑なランキングモデルを使った場合どう説明すべきかなど考慮しなければなりません。
UXとのバランスの例として、説明を追記するのにUIを変える必要があります。チュートリアルの部分に書いたように、UIの変化はUXの悪化をもたらす危険性があります。特にユーザのいらない、求めていない説明だらけの検索結果画面になったら、UXが悪化するでしょう。
機密性とのバランスの例として、自分の名前を検索し、とても古くて関係なくなった結果が返されたら、その結果をランキングから削除するように申請ができます。削除された場合は誰のユーザであろうが、その文書は当たらなくなるはずです。別のユーザが過去にクエリを投げ、前にあった結果がなくなったことに気づいて、説明を求めたとします。「申請により削除された」と説明があった場合は、削除依頼した人の機密性を破ることになります。
深層学習などで得られた複雑なランキングモデルにそもそも説明がつかないときもあるでしょう。これは情報検索に限らず、機械学習の大きな問題でもあります。例えば、保険業界で非常に性能の高い深層学習のモデルでお客さんの保険プランの資格の有無を決める場合、「資格なし」と判断した場合は説明を求められるでしょう。説明ができなかったら、そのモデルはどんなに性能が高くても使えないことがあるでしょう。これと同じように、検索結果の説明が必要となれば、複雑なランキングモデルを使えなくなるか、説明できるように費用・リソースをかけなければならないかもしれません。
ディスカッションが終わると、グループで話し合った点を他のグループと共有しました。
終わりに
検索やリコメンデーション、ランキング学習についてのセッションのみならず、ワークショップで社会学的なテーマと情報科学・情報検索のテーマを混ぜ合わせた豊富なディスカッションにも参加できたので私の初めてのSIGIRは非常に勉強になりました。