Articles / szeptember 26, 2021

Mire jó akkor a Google Fordító?

Miért olyan rossz a latinra a Google Fordító.

A Google Fordító latinra teljesen statisztikai. Nincs modellje a nyelvtanról, a szintaxisról vagy a jelentésről. Mindössze a két vagy több nyelvre kézzel lefordított szövegek legfeljebb öt egymást követő szóból álló szekvenciáit korrelálja.

Pontosabban, egy rejtett Markov-modellt épített fel az összes kézi fordításból, amelyet beletápláltak. A Google ezt Phrase-Based Machine Translation Modelnek, azaz PBMTM-nek nevezi. 2016 novemberében a Google frissítette a Fordítót, hogy néhány nyelv esetében a továbbfejlesztett Neurális Gépi Fordítási Modellt használja, amely nem így működik – de a latin nincs köztük.

A PBMTM nagyjából így működik. Feltételezi, hogy az emberek úgy beszélnek, hogy véletlenszerűen választják ki az egyik szót a másik után, a valószínűségeket pedig az előzőleg elhangzott szó határozza meg. Ha például azt mondtad, hogy “kettő”, akkor van egy bizonyos valószínűsége annak, hogy a következő szó a “vagy” lesz. Ha az előbb azt mondtad, hogy “vagy”, akkor van egy bizonyos valószínűsége annak, hogy a következő szó a “bután” lesz. Ezeknek a valószínűségeknek a becslését kiszámíthatod, ha megnézed azokat a szövegeket, amelyeket korábban betápláltál. Ezután ezeknek a valószínűségeknek megfelelően tudsz véletlenszerű, de csak kissé összefüggő zagyvaságokat generálni:

Kettő

Kettő vagy

Kettő vagy bután

Kettő vagy butángáz

Kettőt vagy butángázt lehet támadni

Ha több szóból álló kontextuális “ablakot” használsz – mondjuk, az előző három, négy vagy öt szót -, hogy megtaláljuk a következőt, az így kapott halandzsa sokkal valószínűbbnek fog tűnni, mintha egy skizofrén írta volna, mint egy afáziás. Íme egy példa, a szövegkörnyezeti ablak kiemelésével:

Hallottam

Hallottam a hatról

Hallottam a hatról ma

Hallottam a hatról ma, mi

Hallottam a hatról ma, keressük

Nézze meg, hogy az egyes félkövérrel szedett mondatok egy valódi mondatban is szerepelhettek volna: “Tegnap

Ez egy Markov-modell. A “rejtett” rész némi komplexitást ad, amit a bejegyzés végére halasztok. Az alapötlet a következő: A Google Translate PBMTM megpróbálja kiválasztani a legvalószínűbb következő szót, az általa birtokolt, a bemeneti és a célnyelvi szövegekből (nem csak a tényleges szövegekből, hanem számos, a tömegből származó fordításból is) származó öt szavas szekvenciákból származó valószínűségi becslések alapján.

A Google Translate leginkább az ENSZ által készített dokumentumok fordításában megbízható az ott használt nyelvek között. Ennek oka, hogy az ENSZ-dokumentumok aránytalanul nagy hányadát adják azoknak a kézzel lefordított szövegeknek, amelyekből a Google Translate az öt szóból álló szekvenciáit meríti, mivel az ENSZ-dokumentumok számos különböző nyelven könnyen hozzáférhetőek (mivel például az ENSZ székházában minden hivatalos ENSZ-dokumentumot, tárgyalási jegyzőkönyvet és levelezést legalább arab, kínai, angol, francia, francia, orosz és spanyol nyelvre lefordítanak).

Tanúja lehet annak, hogy mi történik, amikor ezt beírom:

À l’exception de ce qui peut être convenu dans les accords particuliers de tutelle conclus conformément aux Articles 77, 79 et 81 et plaçant chaque territoire sous le régime de tutelle, et jusqu’à ce que ces accords aient été conclus, aucune disposition du présent Chapitre ne sera interprétée comme modifiant directement ou indirectement en aucune manière les droits quelconques d’aucun État ou d’aucun peuple ou les dispositions d’actes internationaux en vigueur auxquels des Membres de l’Organisation peuvent être parties.

Ez ad nekem:

A 77., 79. és 81. cikkel összhangban megkötött és az egyes területeket a gyámsági rendszer alá helyező különleges gyámsági megállapodásokban foglaltak kivételével, valamint az ilyen megállapodások megkötéséig ez a fejezet nem értelmezhető úgy, hogy közvetlenül vagy közvetve bármilyen módon módosítja bármely állam vagy bármely nép jogait vagy a hatályos nemzetközi okmányok rendelkezéseit, amelyeknek a Szervezet tagjai részes felei lehetnek.

Tökéletes! (Majdnem).

Ez az egyik oka annak, hogy a latin nyelvű fordításai általában olyan gyengék: a rejtett Markov-modellek alapjául szolgáló, ember által készített latin nyelvű fordítások nagyon vékony korpusza van – és rejtett Markov-modelleket használ.

Tehát, amíg az ENSZ nem kezdi latinul intézni a dolgait, a Google Translate statisztikai modellje nem fog túl jó munkát végezni. És még akkor se várjunk sokat, hacsak nem közvetlenül ENSZ-dokumentumokból beillesztett szöveget fordítunk.

További részletek a fordításról a kíváncsiaknak.

A rejtett Markov-modell “állapotokat” ad hozzá. Feltételezzük, hogy a beszélő véletlenszerűen lép át egyik “állapotból” a másikba, és minden állapotnak megvan a maga valószínűsége arra, hogy milyen szót fog “kibocsátani”. Így a rejtett Markov-modell egy statisztikai találgatás arról, hogy melyek azok a legvalószínűbb állapotok, átmenet valószínűségek és kibocsátási valószínűségek, amelyek egy adott szekvenciahalmazt eredményeznének – feltételezve, hogy azok ilyen véletlenszerű módon jönnek létre.

A Google Translate tehát kiszámítja: “Tekintettel arra, hogy a szerző az A nyelven éppen ezt az öt szót mondta (akár), mi a legvalószínűbb állapot, amelyben a szerző van? OK, most a B nyelv megfelelő állapotából mi a legvalószínűbb szó, amit legközelebb ki kell adni?”

Itt egy illusztráció az öt szóból álló kontextuális ablakról. Ha a következőket adjuk meg:

A nadrágot, ahogy vártad, viselték.

A nadrágot viselték.

A nadrágot, ahogy vártad, viselik.

A latin fordítások (kézi visszafordítással angolra), a következők:

Anhelat quemadmodum speravimus confecta. (Úgy liheg, ahogyan reméltük, teljesült.)

Braccas sunt attriti. (A nadrágok elkoptak ).

Anhelat, ut spe teris. (Zihál, ahogyan, remélhetőleg, te is elhasználódtál.)

Figyeljük meg, hogy az első és a harmadik mondat a grammatikai képtelenség határát súrolja. A Google Translate angol nyelvű adatbázisában nincs olyan öt szavas szekvencia, ami jól illeszkedne a “nadrág, ahogy vártad, volt/van” kifejezéshez, tehát csapong. Vegyük észre, hogy a harmadik mondatban, mire eljutott a “viselt” szóhoz, elfelejtette, hogy a “nadrág” melyik értelmét választotta a mondat elején. Vagy inkább nem felejtette el, mert nem követte nyomon. Csak az öt szóból álló szekvenciákat követte. A második mondatnak ad valamiféle értelmet, de még így is nagyon rossz – nem csak a “viselt” jelentésével van baj (mivel, mint már mondtam, nem teremt olyan szemantikai kapcsolatot a “nadrág” és a “viselt” között, ami a “viselni” másik meghatározását jelentené), hanem teljesen elmulasztja, hogy a főnév és az ige neme megegyezzen, vagy hogy az alany a megfelelő esetben legyen.

Az, hogy a mondatnak van-e értelme, nagyjából befolyásolja, hogy a fordítás jelent-e valamit, de ennél rosszabb a helyzet. Ami a leginkább számít, az a pontos, szóról szóra történő egyezés az adatbázisban lévő szövegekkel.

A latin nyelv beírása a Google Translate-be (az első mondatból megváltoztatott szavakkal, félkövérrel jelölve):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxit uxorem nomine Iuliam.

Abraham vero canem duxit uxorem nomine Fido.

English output:

És vett Ábrahám egy másik feleséget, és az ő neve Ketura volt.

Akkor Ábrahám vett egy másik feleséget, és az ő neve Ketura volt.

És vett egy másik feleséget, és az ő neve Júlia nevű leányt.

És vett egy feleséget Ábrahám, és hozott neki egy kutyát, akit Fidónak hívtak.

A Vulgata és az ASV fordítás (vagy hasonló) a Google Translate forrásszövegei között szerepel, így nagyon jól tudja közvetlenül lefordítani őket – figyeljük meg azonban, mi történik, ha a bevitel akár csak egy szóval is eltér. Mivel a szoftver már nem képes észrevenni a hasonlóságot, a teljes mondat helyett kisebb mondattöredékeket kezd el fordítani: például az “uxorem nomine Cetthuram” töredéket a fenti két mondatban, ahol a szövegkörnyezet változása ellenére “egy másik feleség, és a neve Keturah volt” kifejezéssel fordítja.

Ez a fordítási módszer az oka annak, hogy a Google Fordító viszonylag jól működik az analitikusabb nyelveknél , ahol a szigorú szórend a legfontosabb a jelentés szempontjából, de borzalmasan működik a szintetikusabb nyelveknél, mint például a latin, ahol a flektálás határozza meg a jelentést. Ennek az az oka, hogy az ilyen analitikus nyelvekben az egymást követő szavaknak nagyobb valószínűséggel van olyan szemantikai kapcsolatuk, amely lehetővé teszi a jelentés megtartását a célnyelven történő reprodukáláskor.

A neurális gépi fordítási modell

A neurális gépi fordítási modell túllépett az egyszerű statisztikai fordítási modelleken, ehelyett gépi tanulást és neurális hálózatokat használ.

A Google egyik blogbejegyzése szerint:

A neurális rendszer magas szinten egyszerre egész mondatokat fordít, nem pedig csak darabonként. Ezt a tágabb kontextust használja fel, hogy kitalálja a legmegfelelőbb fordítást, amelyet aztán átrendez és kiigazít, hogy jobban hasonlítson egy megfelelő nyelvtannal beszélő emberhez.

Még fejlettebb a Google többnyelvű gépi fordítórendszerével a Google Zero-Shot Translation, amelyet úgy lehet elképzelni, hogy a bemeneti mondatokat a saját szemantikai számítógépes “interlingua”, majd a kimeneti nyelvre fordítja. Ez teszi lehetővé az általa valaha elemzett nyelvpárok közötti “zero-shot fordítást”. A Google jelentésében idézett példa ésszerű koreai-japán fordítást mutatott be, miután csak japán-angol és koreai-angol mondatpárokat tanítottak be. Sajnos úgy tűnik, hogy a közeljövőben egyik sem jön latinra.

Ha szeretnéd látni a Markov-láncok működését angolul a redditen, a /r/SubredditSimulator egy olyan subreddit, amely teljesen tele van Markov-lánc-botokkal (de nem rejtett Markov-lánc modellekkel), amelyeket a subredditek tartalmából magoznak. Az ottani posztok címei két Markov-lánc-hosszúsággal (szavak kontextuális “ablakával”) jönnek létre, ami azt jelenti, hogy minden három szóból álló szekvencia létezett valamikor abban az alredditen, ahonnan a bot a forrását vette. A hozzászólásokat ugyanezzel a módszerrel hozzák létre, kivéve a hosszabbakat, amelyek Markov-lánc hossza három.

TL;DR. Csak olvasd el. Összefoglalva azonban a Google latinra fordító rendszere semmilyen szinten nem rendelkezik nyelvtani vagy szemantikai elemzéssel, hanem csak egy statisztikai modellel a legvalószínűbb következő szó megjelenéséről, amely a rendelkezésére álló, mind a bemeneti nyelven, mind a latin nyelvű művek korpuszának elemzésén alapul. Ez viszonylag jól működik az olyan nyelvek esetében, mint az angol, ahol a szórend a legfontosabb, de borzalmas az olyan nyelvek esetében, mint a latin.

Szóval, SOHA ne használd a Google Fordítót latinra, ha bármilyen tényleges fordítást szeretnél.

Amint az oldalsáv mondja:

A Google Fordító mindig téved, mindig. Ne is törődj azzal, hogy a Google Fordítóhoz fordulj, mielőtt segítséget kérsz tőlünk a fordítással kapcsolatban.

Nagyon plagizáltam Ben Kovitz kitűnő bejegyzését a latin StackExchange-en, majd kissé kibővítettem.

Universe