会場の様子
- 本稿は、「カムのブログ」に投稿されたブログ記事「SIGIR 2019 に参加してきました」を加筆修正して転載したものです。
会場は Cité des Sciences et de l’Industrie(シテ科学産業博物館)という欧州最大級の科学博物館で、チュートリアルを含めたカンファレンスの3日目の食事会は博物館の2階で行われました。
食事会の他に、初日に La grande galerie de l’Évolutionという別の博物館でウェルカムレセプションもありました。
今年のSIGIRで初めて、中国からの提出された論文数もアクセプトされた論文数も、アメリカの論文数を超えました。
SIGIR 2019は大きくチュートリアル、カンファレンス、そしてワークショップに分かれていました。以下、参加してきたセッションの中で関心を持ったものについて書きます。
チュートリアル(1)
初日はEffective Online Evaluation for Web Searchという一日のチュートリアルに参加しました。登壇者はYandex社より5人、Facebook AI Researchより1人いました。チュートリアルはWebサービスの更新に対する評価についてで、概要や資料などはここで見られます。豊富な内容でしたが、特に下記の項目が面白いと思いました。
参考文献
Alexey Drutsa, Gleb Gusev, Eugene Kharitonov, Denis Kulemyakin, Pavel Serdyukov, and Igor Yashkov. 2019. Effective Online Evaluation for Web Search. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 1399-1400. DOI: https://doi.org/10.1145/3331184.3331378
A/B Testing
A/Bテストとは、サービスの新しい機能や変更を試すときに、サービスの利用者をランダムに2つのグループに分け、その新しい変更が適用されているサービスを片方のグループにだけ提供し、変更内容を評価する手法です。
検索サービスの場合は、例えば検索UIを変えるといったフロントエンドの変更や、検索結果の表示順を決めるランキングモデルを変えるといったバックエンドの変更などがあります。A/Bテストはユーザエクスペリエンス(UX)に影響を及ぼすため、基本的に事前に検討中の変更に対してオフラインで評価した上で、A/Bテストを行うか否か判断します。
全ユーザに対しても、ユーザ1人に対しても複数A/Bテストを同時に行うことが可能で、Yandex社ではまさにそうしているそうです。ただし、複数実験を同時に行うと、それぞれの変更が衝突し合い、想定外の結果になる危険性があるため、注意する必要があります。ワークショップ時点でYandex社では、実験を行わないユーザの割合は20%、1つ実験を行うユーザの割合は15%で、残り65%のユーザに対して2つ以上の実験が行われています。 ワークショップ資料のPart 3の13~20ページに実験例、Yandex社のユーザに対する実験数のグラフなどが載っています。