Google翻訳にも使われている「統計的機械翻訳」のしくみを覗いてみよう

機械翻訳のメカニズムを探検しよう第1回

2016/08/02 14:00

ポスト

　本記事では、株式会社ワークスアプリケーションズの社内勉強会を元に、機械学習の研究開発に携わる韓丹氏が英文で書いた原稿を、日本語訳して掲載するものです。今回は、機械翻訳の手法の一つである統計的機械翻訳の基本的な仕組みと、その統計的機械翻訳において広く使われている言語モデル法について解説します。（編集部）

ポスト

1. はじめに

　過去60年にわたって、多くの研究者が様々な言語で自動翻訳の可能性を追究してきました。機械翻訳は学術的研究の関心の的だけでなく、国防、金融、コミュニケーションなど、さまざまな分野から注目を集めてきました。

　今日、機械翻訳は多くのアプリケーションにおいて重要な役割を担っており、その最先端を行く方法の1つが、統計を用いた、統計的機械翻訳 (SMT) と呼ばれるものです。統計的機械翻訳は、Google翻訳、Microsoft Translator、オープンソースの機械翻訳システムMosesなど、多くの翻訳システムにおいて、最も広く用いられている技術です。

　統計的機械翻訳においては、確率推定の精度が非常に高くないと、適切な翻訳が難しくなります。そのため、私たちはベイズの定理を用いて、翻訳の問題を、言語モデルと翻訳モデルの2つに切り分けます。しかしここでは、長さの制約上、その1つ目、言語モデルについての基本的な理論のみを取り上げることにします。

　この記事では、1) 統計的機械翻訳の基になっている理論の概要、および 2) 統計的機械翻訳において広く用いられている言語モデル法、についての簡単な紹介を行います。

　また、この記事の読者には、統計的機械翻訳に興味はあるものの、特に知識は持ち合わせていない方を想定しています。

2. 統計的機械翻訳の概要

2.1 統計的機械翻訳システム

　統計的機械翻訳システムは、言語モデル、翻訳モデル、およびデコーダーの3つの基本的な構成要素を有します。これらの構成要素からなる単純なSMTシステムの例を図1に示します。この記事では、日本語を英語に翻訳するものとして説明を進めていきます。また、以後の説明文中の定義および数式においては、和文をf、英文をeで示します。

図1　単純な統計的機械翻訳システム。P(f|e) は翻訳モデル、P(e) は言語モデルをそれぞれ示します。これらの表記については、項2.2.で詳しく述べます。「日英」は「日本語-英語」の略。

　SMTシステムの動きをよりよく理解するために、実際の翻訳における例を示します。ウィーバー・ウォーレンは、翻訳を暗号法の問題の一種と捉えて、次のように述べています。

　私の目の前にはロシア語の文があるが、私はこれを、変なシンボルでコーディングされた英語で書かれているものであるとみなす。ここで私がすべきことは、テキストで記された情報を受け取るために、コードを外すことである。

　ここで述べられていることを例文にあてはめてみることにします。例えば、「ジョンはメアリーを愛している」という和文を英語に翻訳し、得たい英文が“John loves Mary.”であるとします。その場合、ここで述べられていることからは、私たちはまず英文“John loves Mary.”があって、しかし紙に記載された時点では、この文はコーディングされ、「ジョンはメアリーを愛している」という和文になっていると考えることができます。

　ここで述べられていることは、ちょうど図1に示したSMTシステムにおける矢印の向きを逆にしたものとなり、和文が生成される過程を示しています。これを生成モデルといい、これにおける翻訳の目的は、生成された和文から、最尤な英文を復元することになります。

2.2 統計

　前項で述べたように、最適な翻訳結果とは、ある条件下における最尤な英文です。尤度を公式化するのに用いられる統計学上の基本的な記法を下記に挙げます。前述の通り、下記では和文をf、英文をeで示します。

　合に、英文e（和文f）が形成される確率です。

P(e)もしくはP(f) - 事前確率：英文eもしくは和文fが形成される確率です。
P(e|f)もしくはP(f|e) - 条件付き確率：和文f（英文e）が既に形成されている場
P(e, f) - 結合確率：英文eと和文fの両方が形成される確率です。

　この定義により、P(e|f)はある和文から形成され得る全ての英文の確率分布をモデル化します。そのため、翻訳の問題は、下記の式で表される翻訳モデルを最大化するeを探すことであると公式化できます。

　一方、項2.1で述べた生成モデルに基づくと、翻訳される和文fは、既に存在すると仮定する英文eに依存すると言えます。確率論および統計学においては、上記3種の確率分布の関係は、式2、もしくは式3で表すことができます。

　また、式2および式3より、ベイズの定理と呼ばれる下記の式が導かれます。

　ベイズの定理は翻訳モデルP(e|f)と生成モデル P(e)*P(f|e) を結び付けます。したがって、最尤な翻訳結果を求める式1は、下記のように書き換えることができます。

　式5により、1）言語モデルの確率P(e)の推定、2）翻訳モデルの確率P(f|e)の推定、お

　よび、3）その積を最尤化する最適なデコーディングアルゴリズムの考案、という、統計的機械翻訳における3つの課題が明らかになります。この記事では、最も広く用いられている言語モデル、およびにいくつかのスムージング法について説明していきます。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
3. Nグラム言語モデル

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: 韓丹（カンタン）

　2014年に国立情報学研究所で博士号を取得。自然言語処理研究、特に中国語、日本語、および英語の統計機械翻訳を研究。その後ワークスアプリケーションズにて製品への機械翻訳技術の導入を担当。現在は産業技術総合研究所にてクロスモーダルグラウンディング(Cross-Modal Grounding)を担当。趣...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 八島良太（株式会社ワークスアプリケーションズ）（ヤシマリョウタ）

国際基督教大学教養学部卒。同学在学中にオハイオ州立大学に留学し、経営学を学ぶ。外資系ストレージベンダーでの勤務を経て、2011年にワークスアプリケーションズに入社。同社のERPパッケージソフトウェア「COMPANY」が用いているミドルウェア調査の傍ら、技術系翻訳も行う。関心のある技術領域はストレージ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事