では、Google翻訳は何に適しているのでしょうか?

ラテン語のGoogle翻訳が悪い理由

Google Translate for Latinは、完全に統計的です。 文法、構文、意味のモデルを持ちません。 より正確には、入力されたすべての手動翻訳から隠れマルコフモデルを構築しています。 Google はこれをフレーズ ベースの機械翻訳モデル、または PBMTM と呼んでいます。 2016 年 11 月、Google は翻訳を更新し、一部の言語では、このように動作しない、改良されたニューラル機械翻訳モデルを使用するようにしました – しかし、ラテン語はその中に入っていません。 PBMTMがどのように機能するかは、大まかに言うと次のようなものである。 例えば、「2」と言った場合、次の単語は「or」になる確率があります。 or」と言っただけなら、次の単語は「butane」である確率が高い。 この確率は、先ほど入力したテキストをすべて見れば、推定値が算出できます。 そして、この確率に従って、ランダムに、しかしほんの少しまとまりのあるちんぷんかんぷんな言葉を生成することができるのです。

Two

Two or butane

Two or butane gas

Two or butane gas can be attack

If you use a contextual ‘window’ of more words – say.を使用すれば、ランダムに、しかし少しまとまりのある失言を生成することが可能です。 その結果、失語症の人ではなく、統合失調症の人が書いたと思われるようなちんぷんかんぷんな文章が出来上がります。

I heard about

I heard about six

I heard about six today

I heard about six today, we

I heard about six today, we seek

Now note how each bolded phrase could be in an real sentence.Why did not have been the best: 「Yesterday

That’s a Markov model. 隠された “部分は、いくつかの複雑さを追加しますが、それはこの記事の最後に延期します。 基本的な考え方は Google 翻訳の PBMTM は、入力言語とターゲット言語のテキスト (実際のテキストだけでなく、多くのクラウドソース翻訳も含む) の保有するコーパスの 5 単語のシーケンスから得られた確率の推定値に基づいて、最も可能性の高い次の単語を選ぼうとします。 これは、国連文書が多くの異なる言語で容易に利用できるため、Google 翻訳が 5 単語のシーケンスを引き出す手動翻訳テキストのうち、国連文書が不釣り合いに大きな割合を提供してきたためです(たとえば、国連本部のすべての公式文書、会議記録、通信は、少なくともアラビア語、中国語、英語、フランス語、ロシア語、スペイン語に翻訳されているため)。

これを入力するとどうなるかを目撃してください。

À l’exception de ce quiut être convenu dans les accords particuliers de tutelle conclus conformément aux Article 77, 79 et 81 et plaçant chaque territoire sous le régime de tutelle, et jusqu’à ce que ces accords aient été conclus, 本章のいかなる規定も、いかなる方法でも、直接又は間接に、いかなる国又はいかなる民族の権益をも修正するものと解釈されず、また、組織の加盟国が当事者となることができる現行国際法の規定を修正するものと解釈されない。

第77条、第79条及び第81条に従って締結され、各領域を信託統治制度の下に置く特別後見協定において合意される場合を除き、また、当該協定が締結されるまで、本章は、いかなる方法でも、国もしくは国民の権利または機構の構成員が当事者となり得る有効な国際文書の規定を直接的または間接的に修正すると解釈されないものとする。

Perfect! (ほとんど)…

Google 翻訳のラテン語翻訳が貧弱になりがちな理由の 1 つは、隠れマルコフ モデルを使用するため、人間が翻訳したラテン語のコーパスが非常に限られているためです。

好奇心旺盛な人のための翻訳についての詳細

Hidden Markov モデルでは「状態」を追加します。 話し手はある「状態」から別の「状態」にランダムに移行すると仮定され、各状態はどのような単語を「発する」かの独自の確率の集合を持っています。 このように、隠れマルコフモデルとは、与えられたシーケンスのセットがこのようにランダムに生成されると仮定して、それを生成する最も可能性の高い状態、遷移確率、および放出確率が何であるかを統計的に推測するものです。

Google 翻訳はこのように計算します。 「言語 A の著者がちょうどこれらの 5 つの単語を言ったとすると、著者がいる可能性が最も高い状態は何でしょうか。 OK, now, from the corresponding state in language B, what is the most likely to output next?”

ここで、5 語の文脈ウィンドウを図解します。 次のように入力すると、:

Pants, as you expected, were worn.

Pants were worn.

The Latin translations (with manual translations back to English) are:

Anhelat quemadmodum speravimus confecta.Pants, are worn.Pants, as you expected, were worn.Pants, as you expected, are worn.

Pants is worn.Pants, as you expected, are worn.Pants, as you expected. (彼は、私たちが達成を期待したとおりに喘いでいます。)

Braccas sunt attriti. (ズボンが擦り切れた).

Anhelat, ut spe teris. (He is panting, just as, by hope, you are worn out.)

第1文と第3文は非文法的なナンセンスに接していることに注意してください。 Google翻訳の英語データベースには「pants as you expected were/are」とうまく並ぶ5単語の並びがないので、空回りしているのです。 3番目の文では、”worn “に到達するまでに、文頭で選んだ “pants “の意味を忘れてしまっていることに注目してください。 というか、忘れていないのです。なぜなら、追跡していなかったからです。 5単語の並びだけを追跡したのである。 それは 2 番目の文に何らかの意味を与えますが、それでもまだ非常に間違っています。「worn」に間違った意味を与えるだけでなく (前に述べたように、「パンツ」と「worn」の間に「着る」という別の定義を意味するような意味上のリンクを作らないので)、名詞と動詞の性別を一致させたり、正しいケースで主語を持たせることに完全に失敗しています。

Google 翻訳にラテン語を入力する (最初の文から単語を変更して太字で表示):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxored um nomine Iuliam.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero canem duxit uxorem nomine Fido.

English output:

Abraham took another wife, and her name was Keturah.Abraham vero canem duxit uxorem nomine Fido.Abraham vero canem duxit uxorem nomine Fido.

アブラハムはまた妻をめとり、その名をケツラといった。

そしてアブラハムはまた妻をめとり、その名をユリアといった。

Google 翻訳の原文には、ヴルガータと ASV 翻訳(またはそれに近いもの)があり、それらを直接翻訳するのは非常に得意です。しかし、入力が 1 語でもずれるとどうなるかに注意してください。 例えば、「uxorem nomine Cetthuram」という部分は、文脈が変わっているにもかかわらず、上記の両方の文章で「別の妻、そして彼女の名前はケツラ」と訳されています。

この翻訳方法は、Google 翻訳が、厳密な語順が意味にとって最も重要である分析的な言語では比較的うまく機能しますが、屈折が意味を決定するラテン語などの合成言語では恐ろしくうまく機能しない理由でもあります。 これは、このような分析的な言語では、後続の単語が、ターゲット言語で再生されたときに意味を保持できるような意味的なつながりを持つ可能性が高いためです。

The Neural Machine Translation Model

The Neural Machine Translation Modelは、翻訳のための単純な統計モデルを超えて、代わりに機械学習とニューラルネットワークを使用するようになった。

Google のこのテーマに関するブログ投稿によると、

高いレベルでは、ニューラル システムは、単に断片的にではなく、一度にセンテンス全体を翻訳します。 この広いコンテキストを使用して、最も関連性の高い翻訳を見つけ出し、適切な文法で話す人間のように並べ替え、調整します。

さらに高度なのは、Google の多言語機械翻訳システムによるゼロショット翻訳で、入力フレーズを独自の意味コンピュータ「インターリングア」に翻訳し、次に出力言語に翻訳すると考えることができます。 これはそれが前に分析した言語ペアの間で「ゼロ打撃の翻訳」を可能にするものである。 グーグルの報告書で引用されている例では、日英と韓英の文ペアで学習しただけで、韓国語と日本語の翻訳ができることが実証されている。 残念ながら、これらはどちらもすぐにラテン語になるとは思えません。

Reddit で英語で動作するマルコフ連鎖を見たい場合、/r/SubredditSimulator は、サブレディのコンテンツによってシードされたマルコフ連鎖ボット(ただし隠れマルコフ連鎖モデルではない)で完全に満たされたサブレディットです。 そこでの投稿タイトルは、マルコフ連鎖の長さ(単語の文脈的「窓」)が2であることから、ボットがソースとしたサブレディットのある時点で、3つの単語のシーケンスが存在していたことを意味するものである。 コメントは、長いものを除いて同じ方法で作成されており、マルコフ連鎖の長さは 3 です。 読んでみてください。 まとめると、Googleのラテン語の翻訳システムは、文法や意味解析は一切しておらず、入力言語とラテン語の両方で持っている作品コーパスの解析から、次に出てくる可能性の高い単語を統計的にモデル化しているだけなのだが。 これは英語のように語順が最も重要な言語では比較的うまく機能しますが、ラテン語のような言語では恐ろしいことになります。

ですから、実際の翻訳を望むなら、ラテン語には決して Google 翻訳を使わないでください。

サイドバーにもあるように

Google 翻訳は常に、常に間違っています。

Latin StackExchange にある Ben Kovitz の素晴らしい投稿から完全に盗用し、さらに少し拡張しました。

Leave a Reply