言語翻訳をベクトル空間として捉えるGoogleの戦略

コンピューター科学が翻訳の性質を変化させています。BabelFishやGoogle Translateを一度でも試したことがある人なら、これらが「役には立つが完璧と言うには程遠い翻訳サービス」であることを知っているでしょう。

基本的なアイデアは、ある言語の言葉のコーパスと、他の言語に翻訳された言葉のコーパスとを比較するというものです。同様の統計的性質を共有する言葉やフレーズは、同等のものとして考えられます。

翻訳で問題になるのは、人間の専門家によって編纂されなければならない『辞書』に依存するために、時間と労力がかかってしまうことです。

グーグルのTomas Mikolovらはその問題を解決するために、自動的に辞書を生成して言語変換を行う技術を開発しました。

この新技術は異なる言語間の同一の文書(つまり辞書)に依存しません。その代わり、データマイニング技術を用いて単一言語の構造をモデル化し、それを他の言語の構造と比較するのです(ふむふむ、そういうことか。って完全にちんぷんかんぷんですわ)。

この方法では言語に対する『思い込み』がほとんどないため、辞書や変換テーブルを拡大したり改善したりすることができます。

この新しいアプローチ法は比較的単純なものです。これは「すべての言語が同様の考え方を説明するものであるため、それを実現する言葉も同一でなければならない」という概念に基づいています。たとえば、ほとんどの言語は猫や犬、牛(英語ならcat, dog, cow)などの共通の動物を示す言葉をもっています。これらの言葉は、「猫は犬より小さい動物である」(cat is an animal that is smaller than a dog)などの文章で同一の方法で使用されます。

同じことは数字にもいえます。英語とスペイン語における1から5までのベクトル表示は非常によく似ています。

これは重要な手がかりなのです(知ったかぶってすみません)。この新しいトリックは、言葉間の関係を用いる全言語を示すことにあります。「言語空間(language space)」と呼ばれるすべての関係は、ベクトルとして考えることができます。ここ数年間で言語学者(linguist)は、これらのベクトルを数学的に扱うことが可能であることを発見しました。たとえば、王様-男+女(‘king’ – ‘man’ + ‘woman’ )は「王妃」(‘queen’)と同様のベクトルをもたらします。

異なる言語がこのベクトル空間で多くの同一性を共有していることがわかりました。これが意味することは、「ある言語を別の言語へ変換するプロセスが、あるベクトル空間を別のものへ変換することと同一である」ということです。

これにより、特定の言語を特定の数学に翻訳する上での問題が発生します。そのため、Googleチームにとって現状の課題は、特定のベクトル空間を他のものへ正確にマッピングする方法を見出すことです。