Mihin Google Translate sitten kelpaa?

Miksi latinan Google Translate on niin huono.

Google Translate latinan kielelle on täysin tilastollinen. Sillä ei ole minkäänlaista mallia kieliopista, syntaksista tai merkityksestä. Se ei tee muuta kuin korreloi enintään viiden peräkkäisen sanan sekvenssejä teksteissä, jotka on käännetty manuaalisesti kahdelle tai useammalle kielelle.

Tarkemmin sanottuna se on rakentanut piilotetun Markovin mallin kaikista manuaalisista käännöksistä, jotka sille on syötetty. Google kutsuu tätä lausekepohjaiseksi konekäännösmalliksi eli PBMTM:ksi (Phrase-Based Machine Translation Model). Marraskuussa 2016 Google päivitti Translaten käyttämään joihinkin kieliin parannettua neuraalista konekäännösmallia, joka ei toimi näin – mutta latina ei kuulu niihin.

Näin PBMTM toimii karkeasti ottaen. Se olettaa, että ihmiset puhuvat valitsemalla satunnaisesti sanan toisensa jälkeen, jolloin todennäköisyydet määräytyvät edellisen puhutun sanan mukaan. Jos esimerkiksi sanot ”kaksi”, on tietty todennäköisyys, että seuraava sana on ”tai”. Jos sanoit juuri ”tai”, on olemassa tietty todennäköisyys, että seuraava sana on ”butaani”. Voit laskea arvion näistä todennäköisyyksistä tarkastelemalla kaikkia niitä tekstejä, jotka syötit aiemmin. Sen jälkeen voit luoda satunnaista mutta vain hieman yhtenäistä siansaksaa näiden todennäköisyyksien mukaan:

Kaksi

Kaksi tai

Kaksi tai butaania

Kaksi tai butaanikaasua

Kaksi tai butaanikaasua vastaan voidaan hyökätä

Jos käytät useamman sanan asiayhteydellistä ”ikkunaa” – esim, kolmea, neljää tai viittä edellistä – seuraavan sanan löytämiseksi, tuloksena oleva siansaksa näyttää todennäköisemmin skitsofreenikon kuin afasiapotilaan kirjoittamalta. Tässä on esimerkki, jossa asiayhteysikkuna on korostettu.

Kuulin

Kuulin kuudesta

Kuulin kuudesta tänään

Kuulin kuudesta tänään, me

Kuulin kuudesta tänään, me etsimme

Huomaa, miten kukin lihavoitu lause olisi voinut olla oikeassa lauseessa: ”Eilen

Tämä on Markovin malli. ”Piilotettu” osa lisää monimutkaisuutta, jonka lykkään tämän viestin loppuun. Perusajatus on seuraava: Google Translaten PBMTM yrittää valita todennäköisimmän seuraavan sanan perustuen todennäköisyysarvioihin, jotka on johdettu viiden sanan sekvensseistä sen hallussa olevasta tulo- ja kohdekielisistä teksteistä koostuvasta korpuksesta (ei vain todellisista teksteistä, vaan myös monista joukkorahoitteisista käännöksistä).

Luotettavinta Googlen Kääntäjä on Yhdistyneiden Kansakuntien tuottamien asiakirjojen kääntämisessä YK:n käyttämien kielten välillä. Tämä johtuu siitä, että YK:n asiakirjoista on saatu suhteettoman suuri osuus manuaalisesti käännetyistä teksteistä, joista Google Translate ammentaa viiden sanan sekvenssejä, sillä YK:n asiakirjat ovat helposti saatavilla monilla eri kielillä (sillä esimerkiksi kaikki YK:n viralliset asiakirjat, kokouspöytäkirjat ja kirjeenvaihto YK:n päämajassa käännetään ainakin arabiaksi, kiinaksi, englanniksi, ranskaksi, venäjäksi ja espanjaksi).

Todista, mitä tapahtuu, kun kirjoitan tämän:

À l’exception de ce qui peut être convenu dans les accords particuliers de tutelle conclusément conformément aux articles 77, 79 et 81 et plaçant chaque territoire sous le régime de tutelle, et jusqu’à ce que ces accords aient été conclus, mitään tämän luvun määräystä ei saa tulkita siten, että se muuttaisi suoraan tai välillisesti millään tavoin minkään valtion tai kansan oikeuksia tai voimassa olevia kansainvälisiä säädöksiä, joiden osapuolina järjestön jäsenet voivat olla.

Se antaa minulle:

Ei 77, 79 ja 81 artiklan mukaisesti tehdyissä erityisissä holhoussopimuksissa, joissa kukin alue asetetaan holhousjärjestelmän alaisuuteen, sovita toisin, ja ennen kuin tällaiset sopimukset on tehty, tätä lukua ei saa tulkita siten, että se suoraan tai epäsuorasti muuttaisi millään tavalla minkään valtion tai minkään kansan oikeuksia tai sellaisten voimassaolevien kansainvälisten asiakirjojen määräyksiä, joiden sopimuspuolina järjestön jäsenet voivat olla.

Täydellinen! (Melkein).

Tämä on yksi syy siihen, miksi sen latinankieliset käännökset ovat yleensä niin huonoja: sillä on hyvin ohut korpus ihmisten tekemiä latinankielisiä käännöksiä, joihin se voi perustaa piilotetut Markovin mallinsa – ja se käyttää piilotettuja Markovin malleja.

Kunnes Yhdistyneet Kansakunnat ei aloita latinankielistä liiketoimintaansa, Googlen käännöstoimiston tilastollinen malli ei tule tekemään kovin hyvää työtä. Ja silloinkin, älä odota paljoa, ellet käännä tekstiä, joka on liimattu suoraan YK:n asiakirjoista.

Lisätietoa kääntämisestä uteliaille.

Kätketty Markov-malli lisää ”tiloja”. Puhujan oletetaan siirtyvän satunnaisesti yhdestä ”tilasta” toiseen, ja jokaisella tilalla on omat todennäköisyytensä sille, mitä sanaa se ”lähettää”. Piilotettu Markov-malli on siis tilastollinen arvaus siitä, mitkä ovat todennäköisimmät tilat, siirtymistodennäköisyydet ja päästötodennäköisyydet, jotka tuottaisivat tietyn joukon sekvenssejä – olettaen, että ne tuotetaan tällä satunnaisella tavalla.

Google Translate siis laskee: ”Kun otetaan huomioon, että kirjoittaja kielellä A sanoi juuri (enintään) nämä viisi sanaa, mikä on todennäköisin tila, jossa kirjoittaja on?”. OK, nyt, vastaavasta tilasta kielessä B, mikä on todennäköisin sana, joka tulostetaan seuraavaksi?”

Tässä on havainnollistus viiden sanan asiayhteysikkunasta. Jos syötämme seuraavat:

Pants, as you expected, were worn.

Pants were worn.

Pants, as you expected, are worn.

Latinankieliset käännökset (manuaalisilla käännöksillä takaisin englanniksi), ovat:

Anhelat quemadmodum speravimus confecta. (Hän huohottaa juuri niin kuin toivoimme saavuttavansa.)

Braccas sunt attriti. (Housut ovat kuluneet ).

Anhelat, ut spe teris. (Hän huohottaa, aivan kuten toivottavasti sinä olet kulunut.)

Huomaa, että ensimmäinen ja kolmas lause rajautuvat epäkieliopilliseen hölynpölyyn. Google Translaten englanninkielisessä tietokannassa ei ole yhtään viiden sanan jaksoa, joka sopisi hyvin yhteen ”pants as you expected were/are” kanssa, joten se on flailing. Huomatkaa, että kolmannessa lauseessa se oli unohtanut, minkä merkityksen se oli valinnut lauseen alussa sanalle ”pants”, kun se oli päässyt sanaan ”worn”. Tai pikemminkin se ei unohtanut, koska se ei koskaan jäljittänyt sitä. Se seurasi vain viiden sanan jaksoja. Se antaa toiselle lauseelle jonkinlaisen merkityksen, mutta silloinkin se on edelleen hyvin väärä – se ei ainoastaan anna ”kuluneelle” väärää merkitystä (koska, kuten sanoin aiemmin, se ei tee mitään semanttisia yhteyksiä ”housujen” ja ”kuluneen” välille, jotka tarkoittaisivat toista määritelmää ”pukeutua”), vaan se epäonnistuu täysin siinä, että substantiivin ja verbin suku ei täsmää tai että subjekti on oikeassa taivutusmuodossa.

Siinä tapauksessa se, että onko lauseessa järkeä, tavallaan vaikuttaa siihen, että onko käännöksellä merkitystä mihinkään, mutta asia on pahempi kuin se. Tärkeintä on tarkka, sanasta sanaan tapahtuva täsmääminen tietokannassa olevien tekstien kanssa.

Latinankielisen tekstin syöttäminen Google Translate -palveluun (sanat on muutettu ensimmäisestä virkkeestä lihavoituna):

Abraham vero aliam duxit uxorem nomine Cetthuram.

Quintilianus vero aliam duxit uxorem nomine Cetthuram.

Abraham vero aliam duxit uxorem nomine Iuliam.

Abraham vero canem duxit uxorem nomine Fido.

Englanninkielinen tuloste:

Ja Abraham otti toisen vaimon, ja hänen nimensä oli Ketura.

Quintilian, nyt toisen vaimon, ja hänen nimensä oli Ketura.

Ja Aabraham otti toisen vaimon, ja hänen vaimonsa nimi oli tytär, jonka nimi oli Julia.

Ja Aabraham otti vaimon, ja toi hänelle koiran, jonka nimi oli Fido.

Vulgata ja ASV-käännös (tai vastaava) kuuluvat Google Translaten lähdeteksteihin, joten se osaa kääntää ne hyvin suoraan – huomaa kuitenkin, mitä tapahtuu, kun syötteessä on vain yhden sanan ero. Ohjelmisto ei enää pysty havaitsemaan samankaltaisuutta, vaan alkaa kääntää pienempiä lauseenosia koko lauseen sijasta: esimerkiksi katkelma ”uxorem nomine Cetthuram” käännetään molemmissa edellä mainituissa lauseissa, joissa se esiintyy muotoon ”toinen vaimo, ja hänen nimensä oli Ketura”, vaikka asiayhteys on muuttunut.

Tämän käännöstavan vuoksi Google Translate toimii suhteellisen hyvin analyyttisemmissä kielissä , joissa tiukka sanajärjestys on tärkeintä merkityksen kannalta, mutta hirvittävästi synteettisemmissä kielissä, kuten latinassa, jossa taivutusmuodot määrittävät merkityksen. Tämä johtuu siitä, että tällaisissa analyyttisissä kielissä peräkkäisillä sanoilla on todennäköisemmin semanttinen yhteys, jonka ansiosta merkitys säilyy, kun se toistetaan kohdekielellä.

Neuraalinen konekäännösmalli

Neuraalinen konekäännösmalli on siirtynyt yksinkertaisia tilastollisia käännösmalleja pidemmälle ja käyttää sen sijaan koneoppimista ja neuroverkkoja.

Googlen blogikirjoituksen mukaan aiheesta:

Korkealla tasolla neuraalinen järjestelmä kääntää kokonaisia lauseita kerrallaan eikä vain pala palalta. Se käyttää tätä laajempaa asiayhteyttä apunaan selvittääkseen olennaisimman käännöksen, jonka se sitten järjestää ja säätää uudelleen, jotta se muistuttaisi enemmän ihmistä, joka puhuu oikeaa kielioppia käyttäen.

Jopa edistyneempi on Googlen nollakäännös Googlen monikielisellä konekäännösjärjestelmällä, jonka voidaan ajatella kääntävän syöttölauseet omaan semanttiseen tietokoneeseensa, ”välikieleen”, ja sen jälkeen tulostuskieleen. Tämä mahdollistaa ”nollapistekäännöksen” kieliparien välillä, joita se on koskaan aiemmin analysoinut. Googlen raportissa mainittu esimerkki osoitti, että korean ja japanin käännökset olivat kohtuullisia, koska niitä oli harjoiteltu vain japanin ja englannin sekä korean ja englannin lausepareilla. Valitettavasti kumpikaan näistä ei näytä olevan tulossa latinaksi lähiaikoina.

Jos haluat nähdä Markovin ketjujen toimivan englanniksi redditissä, /r/SubredditSimulator on subreddit, joka on täysin täynnä Markovin ketjujen botteja (mutta ei piilotettuja Markovin ketjujen malleja), jotka on kylvetty subredditin sisällöstä. Siellä olevien postausten otsikot on luotu Markov-ketjun pituudella (sanojen kontekstuaalinen ”ikkuna”), joka on kaksi, mikä tarkoittaa, että jokainen kolmen sanan sekvenssi on ollut olemassa jossain vaiheessa siinä subredditissä, josta botti on ottanut lähteensä. Kommentit on luotu samalla menetelmällä lukuun ottamatta pidempiä kommentteja, joiden Markov-ketjun pituus on kolme.

TL;DR. Lue se vain. Yhteenvetona voidaan kuitenkin todeta, että Googlen latinan käännösjärjestelmässä ei ole kieliopillista tai semanttista analyysia millään tasolla, vaan ainoastaan tilastollinen malli seuraavaksi todennäköisimmin esiintyvästä sanasta, joka perustuu sen korpuksen teosten analyysiin, joka sillä on sekä tulokielellä että latinaksi. Tämä toimii suhteellisen hyvin englannin kaltaisissa kielissä, joissa sanajärjestys on tärkeintä, mutta on kamalaa latinan kaltaisissa kielissä.

Älä siis KOSKAAN käytä Google Translatea latinan kielelle, jos haluat minkäänlaista todellista käännöstä.

Kuten sivupalkissa sanotaan:

Google Translate on aina väärässä, aina. Älä edes vaivaudu kääntymään Google Translaten puoleen, ennen kuin pyydät meiltä apua käännöksen kanssa.

Täysin plagioitu Ben Kovitzin erinomaisesta postauksesta latinankielisessä StackExchangessa, ja sitten hieman laajennettu.

Leave a Reply