Articles / 26 září, 2021

K čemu je tedy Překladač Google dobrý?

Proč je Překladač Google pro latinu tak špatný.

Překladač Google pro latinu je zcela statistický. Nemá žádný model gramatiky, syntaxe ani významu. Jediné, co dělá, je, že koreluje sekvence až pěti po sobě jdoucích slov v textech, které byly ručně přeloženy do dvou nebo více jazyků.

Přesněji řečeno, vytvořil skrytý Markovův model ze všech ručních překladů, které do něj byly vloženy. Společnost Google tento model nazývá Phrase-Based Machine Translation Model neboli PBMTM. V listopadu 2016 Google aktualizoval Překladač tak, aby pro některé jazyky používal vylepšený Neuronový model strojového překladu, který takto nefunguje – latina mezi nimi ale není.

Přibližně takto funguje PBMTM. Předpokládá, že lidé mluví tak, že náhodně vybírají jedno slovo za druhým, přičemž pravděpodobnost je určena předchozím vysloveným slovem. Například pokud jste řekli „dva“, existuje určitá pravděpodobnost, že následující slovo bude „nebo“. Pokud jste právě řekli „nebo“, existuje určitá pravděpodobnost, že dalším slovem bude „butan“. Odhad těchto pravděpodobností můžete vypočítat tak, že se podíváte na všechny ty texty, které jste předtím vložili. Podle těchto pravděpodobností pak můžete generovat náhodné, ale jen trochu souvislé bláboly:

Dva

Dva nebo

Dva nebo butan

Dva nebo butan

Dva nebo butan může být napaden

Pokud použijete kontextové „okno“ více slov – např, předchozích tří, čtyř nebo pěti – k nalezení dalšího, bude výsledný blábol vypadat spíše tak, že ho napsal schizofrenik než afatik. Zde je příklad se zvýrazněným kontextovým okénkem:

Slyšel jsem o

Slyšel jsem o šesti

Slyšel jsem o šesti dnes

Slyšel jsem o šesti dnes, my

Slyšel jsem o šesti dnes, my hledáme

Všimněte si, jak by každá tučně vyznačená věta mohla být ve skutečné větě: „Včera

To je Markovův model. Část „skrytý“ přidává určitou složitost, kterou odložím na konec tohoto příspěvku. Základní myšlenka je následující: PBMTM Překladače Google se snaží vybrat nejpravděpodobnější další slovo na základě odhadů pravděpodobnosti odvozených ze sekvencí pěti slov z korpusu textů ve vstupním a cílovém jazyce, který má k dispozici (nejen skutečné texty, ale také mnoho překladů z davu).

Překladač Google je nejspolehlivější pro překládání dokumentů vytvořených Organizací spojených národů mezi tam používanými jazyky. Je to proto, že dokumenty OSN poskytly neúměrně velký podíl ručně přeložených textů, z nichž Překladač Google čerpá své pětislovné sekvence, protože dokumenty OSN jsou snadno dostupné v mnoha různých jazycích (protože například všechny oficiální dokumenty OSN, záznamy z jednání a korespondence v sídle OSN jsou přeloženy minimálně do arabštiny, čínštiny, angličtiny, francouzštiny, ruštiny a španělštiny).

Svědčte, co se stane, když to zadám:

À l’exception de ce qui peut être convenu dans les accords particuliers de tutelle conclus conformément aux Articles 77, 79 et 81 et plaçant chaque territoire sous le régime de tutelle, et jusqu’à ce que ces accords aient été conclus, aucune disposition du présent Chapitre ne sera interprétée comme modifiant directement ou indirectement en aucune manière les droits quelconques d’aucun État ou d’aucun peuple ou les dispositions d’actes internationaux en vigueur auxquels des Membres de l’Organisation peuvent être parties.

Dává mi:

S výjimkou případů, které mohou být dohodnuty ve zvláštních dohodách o poručnictví uzavřených v souladu s články 77, 79 a 81 a zařazujících jednotlivá území do systému poručnictví, a dokud takové dohody nebudou uzavřeny, nelze tuto kapitolu vykládat tak, že přímo nebo nepřímo mění jakýmkoli způsobem práva kteréhokoli státu nebo národa nebo ustanovení platných mezinárodních aktů, jejichž stranami mohou být členové Organizace.

Dokonalé! (Téměř).

To je jeden z důvodů, proč jeho překlady do latiny bývají tak špatné: má velmi tenký korpus lidmi vytvořených překladů latiny, na kterém může založit své skryté Markovovy modely – a používá skryté Markovovy modely.

Dokud tedy Organizace spojených národů nezačne dělat své obchody v latině, statistický model překladače Google neodvede příliš dobrou práci. A ani pak nečekejte mnoho, pokud nepřekládáte text vložený přímo z dokumentů OSN.

Další podrobnosti o překladu pro zvědavce.

Skrytý Markovův model přidává „stavy“. Předpokládá se, že mluvčí náhodně přechází z jednoho „stavu“ do druhého a každý stav má vlastní sadu pravděpodobností, jaké slovo „vypustí“. Skrytý Markovův model je tedy statistický odhad toho, jaké jsou nejpravděpodobnější stavy, pravděpodobnosti přechodu a pravděpodobnosti emise, které by vytvořily danou sadu sekvencí – za předpokladu, že by byly vytvořeny tímto náhodným způsobem.

Překladač Google tedy počítá: „Vzhledem k tomu, že autor v jazyce A právě řekl (až) těchto pět slov, v jakém nejpravděpodobnějším stavu se autor nachází? Dobře, a nyní, z odpovídajícího stavu v jazyce B, jaké je nejpravděpodobnější slovo, které bude vypsáno jako další?“

Tady je ilustrace kontextového okna s pěti slovy. Pokud zadáme následující:

Pants, as you expected, were worn.

Pants were worn.

Pants, as you expected, are worn.

Latinské překlady (s ručním překladem zpět do češtiny), jsou:

Anhelat quemadmodum speravimus confecta. (Dýchá přesně tak, jak jsme doufali, že se splní.)

Braccas sunt attriti. (Kalhoty jsou obnošené ).

Anhelat, ut spe teris. (Dýchá, stejně jako se, doufám, opotřebovává.)

Všimněte si, že první a třetí věta hraničí s negramatickým nesmyslem. V anglické databázi překladače Google nejsou žádné pětislovné sekvence, které by dobře ladily s „kalhoty, jak jsi očekával, byly/jsou“, takže je to plácání. Všimněte si, že ve třetí větě, než se dostal k „nosí“, zapomněl, který význam slova „kalhoty“ zvolil na začátku věty. Nebo spíše nezapomněla, protože ho nikdy nesledovala. Sledoval pouze pětislovné sekvence. Druhé větě dává jakýsi smysl, ale i tak je stále velmi špatná – nejenže dává „nošené“ špatný význam (protože, jak už jsem řekl, mezi „kalhotami“ a „nošenými“ nevytváří žádné sémantické vazby, které by implikovaly jinou definici „nosit“), ale zcela selhává v tom, aby se shodoval rod podstatného jména a slovesa nebo aby byl podmět ve správném pádě.

Takže to, zda věta dává smysl, tak trochu ovlivňuje, zda překlad něco znamená, ale je to ještě horší. Nejvíce záleží na přesné, doslovné shodě s texty v databázi.

Vložení latinského textu do Překladače Google (se změněnými slovy z první věty, která jsou uvedena tučně):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxit uxorem nomine Iuliam.

Abraham vero canem duxit uxorem nomine Fido.

Anglický výstup:

Abraham si vzal jinou ženu a její jméno bylo Ketura.

Abrahám si vzal jinou ženu a její jméno bylo Ketura.

Abrahám si vzal jinou ženu a jméno jeho ženy bylo dcera jménem Julie.

Abrahám si vzal ženu a přivedl mu psa jménem Fido.

Vulgáta a překlad ASV (nebo podobný) patří mezi zdrojové texty překladače Google, takže je velmi dobře přímo překládá – všimněte si však, co se stane, když se vstupní údaje liší jen o jedno slovo. Software již není schopen rozpoznat podobnost a začne překládat menší fragmenty věty místo celé věty: například fragment „uxorem nomine Cetthuram“ je přeložen v obou výše uvedených větách, kde se objevuje jako „jiná žena a její jméno bylo Ketura“, a to i přes změnu kontextu.

Tento způsob překladu je důvodem, proč překladač Google funguje relativně dobře pro analytičtější jazyky , kde je pro význam nejdůležitější přísný pořádek slov, ale strašně pro syntetičtější jazyky, jako je latina, kde význam určuje skloňování. Je to proto, že v takových analytických jazycích je pravděpodobnější, že po sobě jdoucí slova budou mít významovou vazbu, která umožní zachování významu při reprodukci v cílovém jazyce.

Model neuronového strojového překladu

Model neuronového strojového překladu překročil rámec jednoduchých statistických modelů pro překlad a místo toho využívá strojové učení a neuronové sítě.

Podle příspěvku na blogu společnosti Google na toto téma:

Neurální systém na vysoké úrovni překládá celé věty najednou, nikoli jen po částech. Tento širší kontext mu pomáhá zjistit nejrelevantnější překlad, který pak přeuspořádá a upraví tak, aby se více podobal lidské řeči se správnou gramatikou.

Ještě pokročilejší je Zero-Shot Translation se systémem vícejazyčného strojového překladu Google, který si lze představit jako překlad vstupních frází do vlastního sémantického počítačového „interlingua“ a poté do výstupního jazyka. Právě to umožňuje „překlad nulovým záběrem“ mezi jazykovými páry, které kdy předtím analyzoval. Příklad uvedený ve zprávě společnosti Google prokázal rozumný korejsko-japonský překlad, který byl vždy trénován pouze na japonsko-anglických a korejsko-anglických dvojicích vět. Bohužel to vypadá, že ani jeden z nich se v dohledné době do latinky nedostane.

Pokud chcete vidět, jak Markovovy řetězce fungují v angličtině na redditu, /r/SubredditSimulator je subreddit zcela zaplněný roboty s Markovovými řetězci (ale ne skrytými modely Markovových řetězců) nasazenými na základě obsahu subredditů. Názvy příspěvků v něm jsou tvořeny Markovovým řetězcem o délce (kontextové „okno“ slov) dva, což znamená, že každá sekvence tří slov existovala v určitém okamžiku v subredditu, ze kterého bot čerpal svůj zdroj. Komentáře jsou vytvořeny stejnou metodou, s výjimkou těch delších, které mají délku Markovova řetězce tři.

TL;DR. Stačí si to přečíst. Shrnuto a podtrženo, překladový systém Googlu pro latinu však nemá gramatickou ani sémantickou analýzu na žádné úrovni, ale pouze statistický model nejpravděpodobnějšího slova, které se objeví jako další, na základě analýzy korpusu děl, který má k dispozici jak ve vstupním jazyce, tak v latině. To funguje relativně dobře pro jazyky, jako je angličtina, kde je nejdůležitější pořadí slov, ale je to hrozné pro jazyky, jako je latina.

Takže NIKDY nepoužívejte Překladač Google pro latinu, pokud chcete nějaký skutečný překlad.

Jak říká postranní panel:

Překladač Google se vždy mýlí, vždy. Neobtěžujte se ani obracet na Překladač Google, než nás požádáte o pomoc s překladem.

Celkem plagiát z vynikajícího příspěvku Bena Kovitze na latinském StackExchange, a pak mírně rozšířený.

Universe