« 将棋:第69期B級1組成績順位表 【6回戦、7回戦】 | トップページ | 将棋:第69期A級成績順位表 【3回戦、4回戦】 »

2010年10月27日 (水)

IBMの「ワトスン君」

「1905年の論文『運動する物体の電気力学について』で特殊相対性理論を取り上げた人物とは?」という問題に答えられる人は多いと思う。だが、この質問を現在のコンピューターに問いかけても正しい答えを得ることは期待できないだろう。

現在、IBMが進めているプロジェクト「Watson」はまさにそんな質問にも答えられるコンピューターを目指している。「Blue Gene」と呼ばれるスーパーコンピューターをプラットフォームとし、これに自然言語を理解するためのプログラム「Watson」を組み合わせ、上記のような問題に正確に答えるQuestion Answering Machineを造り出そうというのである。

人間が発する話し言葉による質問の内容を理解し、それに対する解答を探し出してくる機械 ― この計画が成功し実用化されれば、Googleなどの検索エンジンは一気に時代遅れの遺物と化すことになる。

そのWatsonプロジェクトはかなり進んでいて、上述したような質問をきわめて短時間で処理し理解できる段階にまで達しているようで、近々アメリカで人気のクイズ番組「Jeopardy!」に挑戦するという話がある。

「Jeopardy!」というのは、日本でもかつて放送されていた「クイズグランプリ」に似たクイズ番組で、3人の解答者がジャンル別に分かれた問題を早押し形式で答えて行く。正解するとその問題に設定された得点(賞金)を得、間違えるとその分を持ち点から差し引かれるというもので、正解者には次の問題を選択する権利が与えられる。下はYouTubeで見つけた「Jeopardy!」。

ここで紹介されているのは得点が倍の設定になる第2ステージで、問題もその分難しい。

果たして、「Watson」が質問を司会者の読み上げる音声を介して認識するのか、画面にあるような書かれた文章を取り込んで解析するのかは分からないが、いずれにしても「His 1905 paper “On the Electrodynamics of Moving Bodies” contained his special theory of relativity」という文の意味が分からなければ、答えることはできない。もちろん、質問を理解できても答えを知らなければ、これまた勝者にはなれない。

「Jeopardy!」に挑戦するという「Watson」の練習風景を紹介しているのが次のビデオで、きわめて自然に、すばやく、的確に問題に答えている。

ただまだ問題点もあるようでビデオの後半でも「Watson」が「暴走する」様子がとらえられている。結果も人間に勝ったり負けたりといったところのようだ。

ところでこの自然言語理解という能力が十分なレベルに達した場合を考えると、職業柄、当然次に翻訳というテーマが浮かんでくる。ただ、われわれ人間がやっている翻訳とは少し異なり、現在ある翻訳メモリーと組み合わせた使い方が有力かという気がする。

たとえば翻訳メモリーに、「Who wrote the paper “On the Electrodynamics of Moving Bodies”?」という原文に対して「論文『運動する物体の電気力学について』を書いたのは誰ですか」という訳文があり、「The author of the paper was Albert Einstein.」という原文に対して「その論文の著者はアルベルト・アインシュタインです」という訳があったとすれば、「Who wrote “Gone With the Wind”?」という文の訳を、翻訳メモリーを利用して「『Gone With the Wind』を書いたのは誰ですか」と訳すことは容易だろう。あとは、「Gone With the Wind」の邦題を探し出してくれば完全な文ができる。つまり、原文Aと原文Bの比較から差異を割り出し、理解した上で、確定している原文Aの訳文を拾い出してきて、その違う箇所だけを新たな訳文に置き換えるという方法である。

もちろん実際の作業はもっと複雑なものとなるだろうが、原理的にはこれで翻訳は可能ではないだろうか。あとはデータベースとなる翻訳メモリーの質と量を高めて行けば、原文の意味を正しく理解できるシステムなら、適切な訳文(翻訳単位)を選び出すことは大して難しいことではないはずだ。

これでまたもや、翻訳者失業のXデーが一歩近づいてきたことになるのだろうか。

|

« 将棋:第69期B級1組成績順位表 【6回戦、7回戦】 | トップページ | 将棋:第69期A級成績順位表 【3回戦、4回戦】 »

翻訳」カテゴリの記事

コメント

刺激的なエントリでした。いろいろ連想しましたが、ひとつだけ。
ちょうど私も機械翻訳、特にGooglle翻訳の今の実力を調べていたところだったので、さっそく試してみました。

Who wrote the paper “On the Electrodynamics of Moving Bodies”?
誰が"移動体の電磁では"論文を書いた?
=> Googleくんは、見出しスタイルの前置詞 On の使い方を知らないようです。

The author of the paper was Albert Einstein.
論文の著者は、アルバートアインシュタインだった。
=> the paperについてはコンテクストが必要ですね。

Who wrote “Gone With the Wind”?
誰が"風と共に去りぬ"書き込み?
=> こういうところが統計ベースのおかしさです。タイトルはデータベースにあった。上の文ではWho wroteを訳せているのに、こちらでは不正解。

持ってるデータをどんどん増やしていけば、かなりのところまで出来ちゃいますよね。そして、目指すところはもちろんこれ。
Answer to the Ultimate Question of Life, the Universe, and Everything.

投稿: baldhatter | 2010年10月28日 (木) 11時14分

今年はGoogle 翻訳での遊び方を学びました。相手がGoogle翻訳を使った日本語文を送ってきて、意味不明の時は、Googleで英語にしてみました。
また、こちらからは短い文章を日本語で書いて送ります。ただ、正しい日本語を書いても、理解できる英語にしてくれないときは、原文を変えます。
新しい笑いの種になりました。結構、会話が弾みました。(chat&mailですが)
いえいえ、まだまだ失業にはいたりませんよ。ネイティブにもへんてこりんな原文を書く人がいますし、ましてや第二外国語だったら。。。

投稿: pompon | 2010年10月28日 (木) 14時03分

baldhatterさん

ブログの記事興味深く読ませていただきました。機械翻訳のシステム(原理)
自体が分かっていないので頓珍漢なレスかも知れませんが、コンピューターを
使っての翻訳には最終的に言葉および文脈の理解が必要になってくるのでは
ないかと思っています。
おそらく、センテンス単位で、限られたテーマ(たとえば「IT分野のマニュアル」
など)であれば、例として挙げられていたようにかなり質の高い翻訳が得られる
ようになりつつありますが、ちょっとこみいった文脈(「最新鋭のITを採用した自
動車」のように対象分野が複数になった場合)などになると、transmissionという
単語一つでも、文脈から通信用語なのか自動車用語なのかを判断しなければ
ならなくなるでしょう。多義性の処理とでもいったらよいでしょうか。
もちろん、TM(パラレルコーパス)の質量を充実させて、統計ベースで対応する
ことも不可能ではないでしょうが、さらに条件が複雑になればやはり「自然言語
の理解」という壁を乗り越えることが不可欠になるのではないでしょうか。
さらに(たとえば)コピーライティングの見地からの配慮など、訳文への付加価値
的処理も加味しなければならないとしたら、TM(パラレルコーパス)では対応
不可能ではないかという気がします。

pomponさん

実はもう失業する翻訳者というのは現実に出てきているんですよ。私の周辺だけでも
既に数人が翻訳をあきらめ別の職業に移りました。baldhatterさんのブログを
お読みになるとその理由のいったんを垣間見ることができるかもしれません。
無論、すべての人間翻訳者が職を失う日はまだ先でしょうが、翻訳者も明らかに他に
(あるいはコンピューターに比して)秀でたものを持っていないと、徐々に仕事は減って
行くのではないかと思っています。コワイ話ではありますが、それが現実です。

投稿: Jack | 2010年10月29日 (金) 22時33分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/220529/49864189

この記事へのトラックバック一覧です: IBMの「ワトスン君」:

« 将棋:第69期B級1組成績順位表 【6回戦、7回戦】 | トップページ | 将棋:第69期A級成績順位表 【3回戦、4回戦】 »