Articles / 26 września, 2021

Dla czego więc Google Translate jest dobry?

Dlaczego łaciński Google Translate jest taki zły.

Google Translate dla łaciny jest całkowicie statystyczny. Nie ma żadnego modelu gramatyki, składni czy znaczenia. Wszystko co robi to koreluje sekwencje do pięciu kolejnych słów w tekstach, które zostały ręcznie przetłumaczone na dwa lub więcej języków.

A dokładniej, zbudował ukryty model Markowa ze wszystkich ręcznych tłumaczeń, które zostały do niego wprowadzone. Google nazywa to Phrase-Based Machine Translation Model, czyli PBMTM. W listopadzie 2016 roku Google zaktualizował Translate, aby używać ulepszonego Neural Machine Translation Model dla niektórych języków, który nie działa w ten sposób – ale łacina nie jest wśród nich.

Oto jak działa PBMTM, z grubsza rzecz biorąc. Zakłada, że ludzie mówią wybierając losowo jedno słowo po drugim, z prawdopodobieństwem określonym przez poprzednie wypowiedziane słowo. Na przykład, jeśli powiedziałeś „dwa”, istnieje pewne prawdopodobieństwo, że następnym słowem będzie „lub”. Jeśli właśnie powiedziałeś „lub”, istnieje pewne prawdopodobieństwo, że następnym słowem będzie „butan”. Możesz obliczyć oszacowanie tych prawdopodobieństw, patrząc na wszystkie te teksty, które podałeś wcześniej. Następnie możesz wygenerować losowy, ale tylko trochę spójny bełkot zgodnie z tymi prawdopodobieństwami:

Dwa

Dwa lub

Dwa lub butan

Dwa lub gaz butanowy

Dwa lub gaz butanowy można zaatakować

Jeśli użyjesz kontekstowego „okna” z większej liczby słów – powiedzmy, poprzednich trzech, czterech lub pięciu – aby znaleźć następne, to powstały bełkot będzie wyglądał na napisany raczej przez schizofrenika niż przez afazryka. Oto przykład, z podświetlonym oknem kontekstowym.

Słyszałem o

Słyszałem o sześciu

Słyszałem o sześciu dzisiaj

Słyszałem o sześciu dzisiaj, my

Słyszałem o sześciu dzisiaj, szukamy

Zauważ, jak każda pogrubiona fraza mogła znaleźć się w prawdziwym zdaniu: „Wczoraj

To jest model Markowa. Część „ukryta” dodaje pewną złożoność, którą odłożę na koniec tego postu. Podstawową ideą jest: PBMTM Google Translate próbuje wybrać najbardziej prawdopodobne następne słowo, w oparciu o szacunki prawdopodobieństwa uzyskane z pięciosłownych sekwencji z korpusu, który posiada z tekstów w języku wejściowym i docelowym (nie tylko rzeczywiste teksty, ale także wiele tłumaczeń pochodzących z tłumu).

To, w czym Google Translate jest najbardziej niezawodny, to tłumaczenie dokumentów wyprodukowanych przez Narody Zjednoczone pomiędzy językami tam używanymi. Dzieje się tak dlatego, że dokumenty ONZ dostarczyły nieproporcjonalnie dużą część ręcznie przetłumaczonych tekstów, z których Google Translate czerpie swoje pięciosłowne sekwencje, jako że dokumenty ONZ są łatwo dostępne w wielu różnych językach (jako że, na przykład, wszystkie oficjalne dokumenty ONZ, zapisy spotkań i korespondencja w siedzibie ONZ jest tłumaczona na co najmniej arabski, chiński, angielski, francuski, rosyjski i hiszpański).

Witness what happens when I type this in:

Z wyjątkiem tego, co może być uzgodnione w porozumieniach szczególnych dotyczących kurateli, zawartych zgodnie z artykułami 77, 79 i 81 i obejmujących każde terytorium podlegające systemowi kurateli, i aż do momentu, w którym te porozumienia zostały zawarte, aucune disposition du présent Chapitre ne sera interprétée comme modifiant directement ou indirectement en aucune manière les droits quelconques d’aucun État ou d’aucun peuple ou les dispositions d’actes internationaux en vigueur auxquels des Membres de l’Organisation peuvent être parties.

Daje mi:

Z wyjątkiem tego, co może być uzgodnione w specjalnych umowach opiekuńczych zawartych zgodnie z artykułami 77, 79 i 81 i poddających każde terytorium systemowi powiernictwa, i do czasu zawarcia takich umów, Niniejszy rozdział nie będzie interpretowany jako bezpośrednio lub pośrednio modyfikujący w jakikolwiek sposób prawa jakiegokolwiek państwa lub jakiegokolwiek narodu lub postanowienia obowiązujących aktów międzynarodowych, których stronami mogą być Członkowie Organizacji.

Perfekcyjne! (Prawie).

Jest to jeden z powodów, dlaczego jego łacińskie tłumaczenia są tak słabe: ma bardzo cienki korpus tłumaczeń łaciny wykonanych przez człowieka, aby oprzeć swoje ukryte modele Markowa na-oh, i używa ukrytych modeli Markowa.

Więc, dopóki Narody Zjednoczone nie zaczną robić swoich interesów po łacinie, statystyczny model Google Translate nie wykona bardzo dobrej roboty. A nawet wtedy nie spodziewaj się zbyt wiele, chyba że tłumaczysz tekst wklejony bezpośrednio z dokumentów ONZ.

Dalsze szczegóły dotyczące tłumaczenia dla ciekawskich.

Ukryty model Markowa dodaje „stany”. Przyjmuje się, że mówca losowo przechodzi z jednego „stanu” do drugiego, a każdy stan ma swój własny zestaw prawdopodobieństw dla tego, jakie słowo będzie „emitować”. Tak więc ukryty model Markowa jest statystycznym przypuszczeniem, jakie są najbardziej prawdopodobne stany, prawdopodobieństwa przejścia i prawdopodobieństwa emisji, które wytworzyłyby dany zestaw sekwencji – zakładając, że zostały one wytworzone w ten losowy sposób.

Google Translate oblicza zatem: „Biorąc pod uwagę, że autor w języku A właśnie powiedział (do) tych pięciu słów, jaki jest najbardziej prawdopodobny stan, w którym znajduje się autor? OK, teraz, z odpowiadającego stanu w języku B, co jest najbardziej prawdopodobne słowo do wyjścia następny?”

Oto ilustracja pięciu słów okna kontekstowego. Jeśli wprowadzimy następujące słowa:

Spodnie, tak jak się spodziewałeś, były noszone.

Spodnie, tak jak się spodziewałeś, są noszone.

Łacińskie tłumaczenia (z ręcznym tłumaczeniem z powrotem na angielski), to:

Anhelat quemadmodum speravimus confecta. (On dyszy tak, jak mieliśmy nadzieję, że zostało osiągnięte.)

Braccas sunt attriti. (Spodnie zostały wytarte).

Anhelat, ut spe teris. (On dyszy, tak jak, przez nadzieję, ty się zużywasz.)

Zauważ, że pierwsze i trzecie zdanie graniczą z niegramatycznym nonsensem. Nie ma żadnych pięciowyrazowych sekwencji w angielskiej bazie danych Google Translate, które dobrze pasują do „pants as you expected were/are”, więc jest to flailing. Zauważ, że w trzecim zdaniu, zanim doszedł do „worn”, zapomniał, jakie znaczenie „pants” wybrał na początku zdania. Albo raczej nie zapomniał, bo nigdy tego nie śledził. Śledziło tylko sekwencje pięciowyrazowe. To daje drugiemu zdaniu jakieś znaczenie, ale nawet wtedy, to jest nadal bardzo złe – nie tylko daje „noszony” złe znaczenie (ponieważ, jak powiedziałem wcześniej, nie robi żadnych semantycznych powiązań między „spodnie” i „noszony”, które sugerowałyby inną definicję „nosić”), ale nie udaje się całkowicie, aby płeć rzeczownika i czasownika zgadzała się, lub aby podmiot był we właściwym przypadku.

Więc, to czy zdanie ma sens, wpływa na to, czy tłumaczenie znaczy cokolwiek, ale to jest gorsze niż to. Co ma znaczenie najbardziej jest dokładne, słowo w słowo dopasowanie z tekstów w bazie danych.

Wprowadzanie łaciny do Google Translate (z słowa zmienione z pierwszego zdania pokazane pogrubioną czcionką):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxit uxorem nomine Iuliam.

Abraham vero canem duxit uxorem nomine Fido.

Wyjście angielskie:

I wziął Abraham inną żonę, a imię jej było Keturah.

Kwintylian, teraz żona innej żony, a imię jej było Keturah.

I Abraham wziął inną żonę, a imię jego żona, córka imieniem Julia.

I Abraham wziął żonę, i przyniósł mu psa imieniem Fido.

Wulgata i tłumaczenie ASV (lub podobne) są wśród tekstów źródłowych Tłumacza Google, więc jest bardzo dobry w ich bezpośrednim tłumaczeniu – zauważ jednak, co się dzieje, gdy dane wejściowe są przesunięte nawet o jedno słowo. Nie mogąc już dostrzec podobieństwa, program zaczyna tłumaczyć mniejsze fragmenty zdań zamiast całych zdań: na przykład fragment „uxorem nomine Cetthuram” jest tłumaczony w obu powyższych zdaniach, gdzie pojawia się jako „inna żona, a imię jej było Keturah”, mimo zmiany kontekstu.

Ta metoda tłumaczenia jest dlaczego Google Translate działa stosunkowo dobrze dla bardziej analitycznych języków, gdzie ścisły porządek słów jest najważniejszy dla znaczenia, ale strasznie dla bardziej syntetycznych języków, takich jak łacina, gdzie fleksja określa znaczenie. Dzieje się tak dlatego, że w takich analitycznych językach, kolejne słowa są bardziej prawdopodobne, aby mieć związek semantyczny, który pozwoli na zachowanie znaczenia, gdy zostanie odtworzony w języku docelowym.

Neuronowy model tłumaczenia maszynowego

Neuronowy model tłumaczenia maszynowego wyszedł poza proste modele statystyczne tłumaczenia, wykorzystując zamiast tego uczenie maszynowe i sieci neuronowe.

Zgodnie z wpisem na blogu Google na ten temat:

Na wysokim poziomie system neuronowy tłumaczy całe zdania naraz, a nie tylko kawałek po kawałku. Wykorzystuje ten szerszy kontekst, aby pomóc mu znaleźć najbardziej odpowiednie tłumaczenie, które następnie zmienia układ i dostosowuje, aby być bardziej podobnym do człowieka mówiącego z właściwą gramatyką.

Jeszcze bardziej zaawansowane jest Zero-Shot Translation z Google’s Multilingual Machine Translation System, który może być uważany za tłumaczenie fraz wejściowych do własnego semantycznego komputera 'interlingua’, a następnie do języka wyjściowego. To właśnie pozwala na „zero-shot translation” pomiędzy parami językowymi, które nigdy wcześniej nie były analizowane. Przykład przytoczony w raporcie Google wykazał sensowne tłumaczenie koreańsko-japońskie, które było szkolone tylko na parach zdań japońsko-angielskich i koreańsko-angielskich. Niestety, żaden z nich nie wygląda na łacinę w najbliższym czasie.

Jeśli chcesz zobaczyć łańcuchy Markowa działające w języku angielskim na reddicie, /r/SubredditSimulator jest podredditem całkowicie wypełnionym botami łańcucha Markowa (ale nie ukrytymi modelami łańcucha Markowa) zasianymi przez zawartość podredditów. Tytuły postów są tworzone przez łańcuch Markowa o długości (kontekstowe „okno” słów) dwóch, co oznacza, że każda sekwencja trzech słów istniała w pewnym momencie w podreddicie, z którego bot wziął swoje źródło. Komentarze są tworzone tą samą metodą, z wyjątkiem tych dłuższych, które mają długość łańcucha Markowa równą trzy.

TL;DR. Po prostu to przeczytaj. Podsumowując jednak, system tłumaczeniowy Google dla łaciny nie posiada analizy gramatycznej czy semantycznej na żadnym poziomie, a jedynie statystyczny model najbardziej prawdopodobnego słowa, które pojawi się w następnej kolejności, oparty na analizie korpusu prac, które posiada zarówno w języku wejściowym, jak i łacinie. Działa to stosunkowo dobrze dla języków takich jak angielski, gdzie kolejność słów jest najważniejsza, ale jest okropne dla języków takich jak łacina.

Więc, NIGDY nie używaj Google Translate dla łaciny, jeśli chcesz jakiegokolwiek rzeczywistego tłumaczenia.

Jak mówi pasek boczny:

Google Translate jest zawsze błędny, zawsze. Nawet nie zawracaj sobie głowy zwracaniem się do Google Translate przed poproszeniem nas o pomoc w tłumaczeniu.

Całkowicie splagiatowany z doskonałego postu Bena Kovitza na Latin StackExchange, a następnie nieco rozszerzony.

Universe