Articles / September 26, 2021

Wofür ist Google Translate dann gut?

Warum ist Google Translate für Latein so schlecht.

Google Translate für Latein ist komplett statistisch. Es hat kein Modell der Grammatik, der Syntax oder der Bedeutung. Es korreliert lediglich Sequenzen von bis zu fünf aufeinanderfolgenden Wörtern in Texten, die manuell in zwei oder mehr Sprachen übersetzt wurden.

Genauer gesagt, hat es ein verstecktes Markov-Modell aus allen manuellen Übersetzungen erstellt, die ihm eingegeben wurden. Google nennt dies das Phrase-Based Machine Translation Model (PBMTM). Im November 2016 aktualisierte Google Translate, um das verbesserte Neural Machine Translation Model für einige Sprachen zu verwenden, das nicht auf diese Weise funktioniert – aber Latein gehört nicht dazu.

So funktioniert das PBMTM, grob gesagt. Es geht davon aus, dass Menschen sprechen, indem sie ein Wort nach dem anderen zufällig auswählen, wobei die Wahrscheinlichkeiten durch das zuvor gesprochene Wort bestimmt werden. Wenn Sie zum Beispiel „zwei“ gesagt haben, besteht eine gewisse Wahrscheinlichkeit, dass das nächste Wort „oder“ sein wird. Wenn Sie gerade „oder“ gesagt haben, besteht eine gewisse Wahrscheinlichkeit, dass das nächste Wort „Butan“ sein wird. Sie können eine Schätzung dieser Wahrscheinlichkeiten berechnen, indem Sie sich alle Texte ansehen, die Sie zuvor eingegeben haben. Sie können dann ein zufälliges, aber gerade noch kohärentes Kauderwelsch entsprechend dieser Wahrscheinlichkeiten erzeugen:

Zwei

Zwei oder

Zwei oder Butangas

Zwei oder Butangas kann angegriffen werden

Zwei oder Butangas kann angegriffen werden

Wenn Sie ein kontextuelles „Fenster“ von mehr Wörtern verwenden – sagen wir, die vorherigen drei, vier oder fünf – um das nächste Wort zu finden, sieht das resultierende Kauderwelsch eher so aus, als wäre es von einem Schizophrenen geschrieben worden als von einem Aphasiker. Hier ein Beispiel, bei dem das Kontextfenster hervorgehoben ist.

Ich habe von

Ich habe von sechs gehört

Ich habe heute von sechs gehört

Ich habe heute von sechs gehört, wir

Ich habe heute von sechs gehört, wir suchen

Beachten Sie, dass jede fettgedruckte Phrase auch in einem echten Satz hätte stehen können: „Gestern

Das ist ein Markov-Modell. Der „verborgene“ Teil macht es etwas komplizierter, was ich auf das Ende dieses Beitrags verschieben werde. Die Grundidee ist folgende: Das PBMTM von Google Translate versucht, das wahrscheinlichste nächste Wort auszuwählen, und zwar auf der Grundlage von Wahrscheinlichkeitsschätzungen, die aus Fünf-Wort-Sequenzen aus dem Textkorpus in der Eingabe- und Zielsprache abgeleitet werden (nicht nur tatsächliche Texte, sondern auch viele Crowd-Sourced-Übersetzungen).

Am zuverlässigsten ist Google Translate bei der Übersetzung von Dokumenten der Vereinten Nationen zwischen den dort verwendeten Sprachen. Das liegt daran, dass UN-Dokumente einen unverhältnismäßig großen Anteil der manuell übersetzten Texte liefern, aus denen Google Translate seine Fünf-Wort-Sequenzen bezieht, da UN-Dokumente in vielen verschiedenen Sprachen verfügbar sind (da beispielsweise alle offiziellen UN-Dokumente, Sitzungsprotokolle und Korrespondenz im UN-Hauptquartier zumindest in Arabisch, Chinesisch, Englisch, Französisch, Russisch und Spanisch übersetzt werden).

Sehen Sie, was passiert, wenn ich das eingebe:

À l’exception de ce qui peut être convenu dans les accords particuliers de tutelle conclus conformément aux Articles 77, 79 et 81 et plaçant chaque territoire sous le régime de tutelle, et jusqu’à ce que ces accords aient été conclus, darf keine Bestimmung dieses Kapitels als direkte oder indirekte Änderung der Rechte eines Staates oder eines Volkes oder der Bestimmungen geltender internationaler Rechtsakte, an denen die Mitglieder der Organisation beteiligt sein können, ausgelegt werden.

Es gibt:

Abgesehen von den Vereinbarungen, die in den nach den Artikeln 77, 79 und 81 abgeschlossenen besonderen Vormundschaftsabkommen getroffen werden und die jedes Gebiet unter das System der Treuhänderschaft stellen, und bis zum Abschluss solcher Abkommen ist dieses Kapitel nicht so auszulegen, als ändere es in irgendeiner Weise unmittelbar oder mittelbar die Rechte irgendeines Staates oder irgendeines Volkes oder die Bestimmungen geltender internationaler Übereinkünfte, denen die Mitglieder der Organisation angehören können.

Perfekt! (Fast).

Das ist ein Grund, warum die Lateinübersetzungen von Google Translate so schlecht sind: Es gibt nur einen sehr kleinen Korpus an von Menschen angefertigten Lateinübersetzungen, auf die sich die versteckten Markov-Modelle stützen können – und es werden versteckte Markov-Modelle verwendet.

Solange die Vereinten Nationen also nicht anfangen, ihre Geschäfte in Latein abzuwickeln, wird das statistische Modell von Google Translate keine sehr gute Arbeit leisten. Und selbst dann sollten Sie nicht viel erwarten, es sei denn, Sie übersetzen Text, der direkt aus UN-Dokumenten eingefügt wurde.

Weitere Details zur Übersetzung für Neugierige.

Ein Hidden-Markov-Modell fügt „Zustände“ hinzu. Es wird davon ausgegangen, dass der Sprecher nach dem Zufallsprinzip von einem „Zustand“ in einen anderen übergeht, und jeder Zustand hat eine eigene Reihe von Wahrscheinlichkeiten dafür, welches Wort er „ausstoßen“ wird. Ein verborgenes Markov-Modell ist also eine statistische Vermutung über die wahrscheinlichsten Zustände, Übergangswahrscheinlichkeiten und Emissionswahrscheinlichkeiten, die eine bestimmte Menge von Sequenzen hervorbringen würden – unter der Annahme, dass sie auf diese zufällige Weise erzeugt werden.

Google Translate errechnet also: „Wenn der Autor in Sprache A gerade (bis zu) diese fünf Wörter gesagt hat, was ist der wahrscheinlichste Zustand, in dem sich der Autor befindet? OK, und nun, ausgehend vom entsprechenden Zustand in Sprache B, welches ist das wahrscheinlichste Wort, das als nächstes ausgegeben wird?“

Hier ist eine Illustration des Fünf-Wörter-Kontextfensters. Wenn wir Folgendes eingeben:

Hosen wurden, wie erwartet, getragen.

Hosen wurden getragen.

Hosen werden, wie erwartet, getragen.

Die lateinischen Übersetzungen (mit manuellen Übersetzungen zurück ins Englische) sind:

Anhelat quemadmodum speravimus confecta. (Er hechelt genau so, wie wir gehofft haben, dass es gelingt.)

Braccas sunt attriti. (Die Hosen sind abgenutzt).

Anhelat, ut spe teris. (Er hechelt, so wie du hoffentlich abgenutzt bist.)

Beachte, dass der erste und der dritte Satz an ungrammatischen Unsinn grenzen. In der englischen Datenbank von Google Translate gibt es keine Fünf-Wort-Sequenzen, die gut mit „pants as you expected were/are“ übereinstimmen, also ist es ein Flattersatz. Beachten Sie, dass Google Translate im dritten Satz bei „worn“ vergessen hat, welche Bedeutung von „pants“ es zu Beginn des Satzes gewählt hat. Oder besser gesagt, er hat es nicht vergessen, weil er es nie verfolgt hat. Es hat nur Fünf-Wort-Sequenzen verfolgt. Es gibt dem zweiten Satz eine Art von Bedeutung, aber selbst dann ist er immer noch sehr falsch – nicht nur gibt es „worn“ die falsche Bedeutung (da es, wie ich schon sagte, keine semantischen Verbindungen zwischen „pants“ und „worn“ herstellt, die die andere Definition von „to wear“ implizieren würden), sondern es versäumt es völlig, das Geschlecht des Substantivs und des Verbs übereinstimmen zu lassen oder das Subjekt im korrekten Fall zu haben.

So, ob der Satz einen Sinn ergibt, beeinflusst irgendwie, ob die Übersetzung irgendetwas bedeutet, aber es ist schlimmer als das. Am wichtigsten ist die exakte Wort-für-Wort-Übereinstimmung mit Texten in der Datenbank.

Eingabe des lateinischen Textes in Google Translate (mit den fettgedruckten Änderungen des ersten Satzes):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxit uxorem nomine Iuliam.

Abraham vero canem duxit uxorem nomine Fido.

Englische Ausgabe:

Und Abraham nahm eine andere Frau, und ihr Name war Ketura.

Und Abraham nahm sich ein anderes Weib, und ihr Name war Keturah.

Und Abraham nahm sich ein anderes Weib, und der Name seines Weibes war eine Tochter, die hieß Julia.

Und Abraham nahm sich ein Weib und brachte ihm einen Hund, der hieß Fido.

Die Vulgata und die ASV-Übersetzung (oder eine ähnliche) gehören zu den Ausgangstexten von Google Translate, so dass es sehr gut darin ist, sie direkt zu übersetzen – beachten Sie jedoch, was passiert, wenn die Eingabe nur um ein Wort abweicht. Die Software ist nicht mehr in der Lage, die Ähnlichkeit zu erkennen, und beginnt, kleinere Satzfragmente anstelle des ganzen Satzes zu übersetzen: zum Beispiel wird das Fragment „uxorem nomine Cetthuram“ in den beiden obigen Sätzen, in denen es als „eine andere Frau, und ihr Name war Keturah“ erscheint, trotz des veränderten Kontextes übersetzt.

Diese Übersetzungsmethode ist der Grund, warum Google Translate bei analytischeren Sprachen, bei denen die strenge Wortfolge für die Bedeutung am wichtigsten ist, relativ gut funktioniert, bei synthetischeren Sprachen wie dem Lateinischen, bei denen Beugungen die Bedeutung bestimmen, jedoch furchtbar. Das liegt daran, dass in solchen analytischen Sprachen die nachfolgenden Wörter eher eine semantische Verbindung aufweisen, die es ermöglicht, die Bedeutung bei der Wiedergabe in der Zielsprache beizubehalten.

Das neuronale maschinelle Übersetzungsmodell

Das neuronale maschinelle Übersetzungsmodell geht über einfache statistische Modelle für die Übersetzung hinaus und verwendet stattdessen maschinelles Lernen und neuronale Netzwerke.

In einem Google-Blogbeitrag zu diesem Thema heißt es:

Das neuronale System übersetzt ganze Sätze auf einmal und nicht nur Stück für Stück. Es nutzt diesen breiteren Kontext, um die relevanteste Übersetzung herauszufinden, die es dann neu anordnet und anpasst, um mehr wie ein Mensch zu sein, der mit korrekter Grammatik spricht.

Noch fortschrittlicher ist Googles Zero-Shot-Übersetzung mit Googles mehrsprachigem maschinellem Übersetzungssystem, das man sich so vorstellen kann, dass es die Eingabesätze in seine eigene semantische Computer-„Interlingua“ und dann in die Ausgabesprache übersetzt. Dies ermöglicht die „Null-Schuss-Übersetzung“ zwischen Sprachpaaren, die es zuvor analysiert hat. Das im Google-Bericht zitierte Beispiel zeigt eine vernünftige Koreanisch-Japanisch-Übersetzung, die nur auf japanisch-englische und koreanisch-englische Satzpaare trainiert wurde. Leider sieht es nicht so aus, als würden diese beiden Sprachen in absehbarer Zeit auch in Latein verfügbar sein.

Wenn Sie sehen wollen, wie Markov-Ketten auf reddit in englischer Sprache funktionieren, finden Sie in /r/SubredditSimulator ein Subreddit, das vollständig mit Markov-Ketten-Bots (aber nicht mit versteckten Markov-Ketten-Modellen) gefüllt ist, die durch den Inhalt von Subreddits gespeist werden. Die Titel der Beiträge werden mit einer Markov-Kettenlänge (kontextuelles „Fenster“ von Wörtern) von zwei erstellt, was bedeutet, dass jede Sequenz von drei Wörtern irgendwann einmal in dem Subreddit existierte, aus dem der Bot seine Quelle bezog. Die Kommentare werden nach der gleichen Methode erstellt, mit Ausnahme der längeren Kommentare, die eine Markov-Kettenlänge von drei haben.

TL;DR. Lesen Sie es einfach. Zusammenfassend lässt sich sagen, dass Googles Übersetzungssystem für Latein auf keiner Ebene eine grammatikalische oder semantische Analyse durchführt, sondern lediglich ein statistisches Modell des wahrscheinlichsten Wortes, das als nächstes erscheint, auf der Grundlage einer Analyse des Korpus von Werken, die sowohl in der Eingabesprache als auch in Latein vorliegen. Das funktioniert relativ gut für Sprachen wie Englisch, wo die Wortreihenfolge das Wichtigste ist, ist aber für Sprachen wie Latein furchtbar.

Verwenden Sie also NIEMALS Google Translate für Latein, wenn Sie irgendeine Art von tatsächlicher Übersetzung wollen.

Wie die Seitenleiste sagt:

Google Translate ist immer falsch, immer. Machen Sie sich gar nicht erst die Mühe, Google Translate zu benutzen, bevor Sie uns um Hilfe bei einer Übersetzung bitten.

Entryly plagiarised from Ben Kovitz’s excellent post on the Latin StackExchange, and then slightly extended.

Universe