カンファレンス(1)
7月22日~23日に開催されたカンファレンスには、キーノート、カンファレンスセッション、そしてポスターセッションがありました。カンファレンスセッションでは、1人の研究者が登壇し論文を発表したり、時間があれば質疑応答をします。それに対して、ポスターセッションでは、1つの部屋に短い論文についてのポスターがたくさん貼られており、研究者が1人または少人数に対して直接発表したり話し合ったりします。カンファレンスセッションか、ポスターセッションかは、下記のまとめの見出しに書いてある [Session] か [Poster] で区別がつきます。
著者や論文などについてはこちらで確認できます。また、各セッションのまとめに参考文献も記載します。
Domain Adaptation for Enterprise Email Search [Session]
参考文献
Brandon Tran, Maryam Karimzadehgan, Rama Kumar Pasumarthi, Michael Bendersky, and Donald Metzler. 2019. Domain Adaptation for Enterprise Email Search. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 25-34. DOI: https://doi.org/10.1145/3331184.3331204
本セッションでは、データのドメイン適応(domain adaptation)という技法を用いて、グローバルなランキングモデルを異なるコーパスに有効になるように調整する方法とその詳細について発表されました。研究動機と抱えている課題は企業内メール検索にありますが、開発された技法はとても汎用性が高いです。以下、その課題と解決策となる技法をまとめます。
Web検索のランキングモデルは基本的に豊富なuser interaction dataと汎用なコーパスに対して学習して構築されたものです。一方、企業内メール検索サービスはクラウド上で提供すると、全体のデータに対してランキングモデル(汎用モデル)は作れますが、各ユーザのコーパスが小さく、偏っていることが多いので、全ユーザに汎用モデルでランキングを提供すると最適な結果になりません。
例えば、半導体のメーカーが人気のある企業内メール検索のサービスを利用しているとします。そのメーカーのすべてのメールでできたコーパスは専門性が高く、メール検索サービスが処理する全てのメールでできたコーパスほど汎用でもなく、大きくもないです。従ってメール検索サービスの汎用ランキングモデルを半導体メーカーのメール検索に適用しようとすると、最適なランキングを得られなくてもおかしくないです。
1つの解決策として、ユーザ(企業・ターゲットドメイン)ごとにランキングモデルを構築することは可能ですが、企業内メール検索の場合はデータが不足していることが多く、モデルを構築しようとしたら過学習してしまう可能性が高いです。もう一つの解決策としては、ターゲットドメインのデータを使って汎用モデルのパラメータを調整しながら目標のドメインにフィットすることも可能ですが、これは非常に難しくて費用のかかるプロセスです。
そこで、本セッションで発表されたドメイン適応技法を使えば、汎用ランキングモデルを各ユーザに対して調整し、より性能の良いモデルを得られます。ドメイン適応とは、転移学習の一種で、あるドメインで学習されたモデルを異なるドメインにも効くように適応させることです。以下は企業内メールランキングモデルのアーキテクチャーの図です。
上記モデルは、上記図のソースデータセットに対して学習した深層学習モデル(予測モデル)をターゲットデータセットにも使えるようになることを目的としています。「埋め込み空間」とは、特徴量が存在する空間とは異なる空間で、データセットをこの埋め込み空間へのマッピングを行います。データ次第でマッピング方法を決めますが、例えばニューラルネットワークを使ったりできます。埋め込みベクトルはクエリと文書のペアを表します。「予測モデル」はクリックを予測するニューラルネットワークのモデルです。
「訂正モデル」は、ドメイン適応を行うために追加された部分で、GAN(Generative Adversarial Network)に基づいた手法(Discriminator-based techniques)と統計学に基づいた手法がありましたが、前者のみ簡単にまとめます。
入力特徴量が「ソース」か「ターゲット」のデータだと予測するニューラルネットワークがあります。目的はこのニューラルネットワークが「ソース」か「ターゲット」か予測できなくなるように埋め込みベクトルを調整することです。例えば「ソース」か「ターゲット」を予測するための(正確に予測した方が小さくなる)損失関数があるとすれば、それを最大化することで調整できます。予測モデルと統計学的手法を使うことで、埋め込み空間で表現するソースドメインとターゲットドメインを区別できなくなるようにします。
実験結果として、GAN に基づいた手法も統計学に基づいた手法も4つのベースラインより性能が高かったそうです。以下のベースラインが使われていました。
- ソースデータセットに対して学習したモデル (Train all model)
- ターゲットドメインのみに対して学習したモデル (Domain model)
- Train all modelを学習後、ドメインのデータのみでより低い学習率で再学習(re-train)
- Train all modelに似ているが、各バッチに必ず指定した割合でターゲットドメインのデータを入れる
研究結果の詳細や数式などは元の論文を参照してください。