Leposlovje v strojni preobleki #4: 1984

Strojni prevajalniki postajajo vse boljši in boljši. Kot smo videli v tem blogu, najboljše rezultate dobimo, če jih uporabljamo na primernih besedilih. Kako pa se obnašajo, ko se srečajo z besedili, ki niso najbolj primerna za strojno prevajanje, kot so literarna dela? Zanje velja prepričanje, da jih algoritmi za strojno prevajanje še dolgo ne bodo znali prevesti, vendar ali je to res? V Aikwitu smo se odločili, da preverimo te trditve!

Pravila igre

Vsak teden ali dva bomo izbrali kratek odlomek nekega literarnega dela in ga strojno prevedli z nekaj najbolj uveljavljenimi brezplačnimi strojnimi prevajalniki. Prvo epizodo si lahko ogledate tukaj.

Tekmovalci so: Google Translate, Microsoft Bing Translator, strojni prevajalnik ruskega iskalnika Yandex Translate in tekmovalec iz domačih logov, ki so ga razvili v laboratoriju za umetno inteligenco na Institutu Jožefa Stefana. Vsi štirje člani Aikwitove ekipe bomo strojne prevode ocenili z oceno od 1 do 5, kjer je 5 najvišja in 1 najnižja ocena. Tako bomo skozi čas dobili povprečno oceno kakovosti posameznega strojnega prevajalnika na področju prevajanja literature.

Epizoda 4: Kavelj 22

Za tokratni preizkus strojnih prevajalnikov smo izbrali distopični roman 1984 Georgea Orwella, ki s povojnega stališča (napisan je bil leta 1948) riše črno prihodnost nekoč svobodnega sveta, totalitaristične režime treh velesil, Oceanije, Evrazije in Eastazije, ki se prek razčlovečenja in popolnega nadzora svojih strogo razslojenih družb v stalni vojni borijo za moč – zaradi moči same. V romanu spremljamo Winstona, delavca Ministrstva resnice, ki popravlja zgodovinske zapise, da bi se ujemali s trenutno politično sprejemljivo različico dogodkov, ter tajno nasprotuje Stranki in sanja o vstaji. Roman, katerega ključne zamisli, kot so Veliki brat, miselna policija in telekrani, so postale del popularne kulture, je v prevodu Alenke Puhar v slovenščini prvič izšel leta 1967, leta 2004 pa ga je nekoliko prilagodila in posodobila Tina Mahkota. Našim prevajalnikom smo zadali še dodaten oreh: v izbranem odlomku se pojavi zapis Novoreka, umetno ustvarjenega jezika Oceanije z omejenim besediščem in slovnico, katerega namen je zadušiti svobodo misli. Poglejmo, kako so se z njim spopadli prevajalniki.

Takole je videti v angleškem izvirniku:

Three messages had slid out of the pneumatic tube while Winston was working, but they were simple matters, and he had disposed of them before the Two Minutes Hate interrupted him. When the Hate was over he returned to his cubicle, took the Newspeak dictionary from the shelf, pushed the speakwrite to one side, cleaned his spectacles, and settled down to his main job of the morning.
Winston’s greatest pleasure in life was in his work. Most of it was a tedious routine, but included in it there were also jobs so difficult and intricate that you could lose yourself in them as in the depths of a mathematical problem—delicate pieces of forgery in which you had nothing to guide you except your knowledge of the principles of Ingsoc and your estimate of what the Party wanted you to say. Winston was good at this kind of thing. On occasion he had even been entrusted with the rectification of ‘The Times’ leading articles, which were written entirely in Newspeak. He unrolled the message that he had set aside earlier. It ran:
times 3.12.83 reporting bb dayorder doubleplusungood refs unpersons rewrite fullwise upsub antefiling
In Oldspeak (or standard English) this might be rendered: The reporting of Big Brother’s Order for the Day in ‘The Times’ of December 3rd 1983 is extremely unsatisfactory and makes references to non-existent persons. Rewrite it in full and submit your draft to higher authority before filing.

Izvirno besedilo

In tako v slovenskem prevodu Alenke Puhar:

Tri poročila so zdrsnila iz pnevmatične cevi, medtem ko je Winston delal, a bile so preproste zadeve in rešil se jih je, še preden ga je zmotilo Dvominutno sovraštvo. Ko je bilo Sovraštvo pri kraju, se je vrnil na svoje mesto, vzel s police slovar Novoreka, odrinil govorno-pisalni stroj, si očistil očala in se lotil glavne naloge tistega dopoldneva.
Winstonova največja radost v življenju je bilo delo. Večina dela je bila dolgočasna rutina, a vanj so bile vključene tudi tako težke in zamotane naloge, pri katerih si se lahko izgubil tako kot v globinah matematičnega problema – občutljivi drobci potvarjanja, v katerih te ni moglo voditi nič drugega kot poznavanje načel Angsoca in lastne ocene, kaj Stranka hoče, da poveš. Winston je to dobro znal. Priložnostno so mu zaupali celo prečiščevanje vodilnih člankov v Timesu, ki so bili v celoti napisani v Novoreku. Razvil je sporočilo, ki ga je prej odložil. Glasilo se je:
times 3. 12. 83 poročilo vb dnevniukaz dvojnoplus nedober omb neosebe ponapiši polnnačinsko podv predoddaja.
Prevedeno v Starorek (ali običajno angleščino) bi se to glasilo:
Poročilo o Dnevi zapovedi Velikega brata v Timesu z dne 3. decembra 1983 je skrajno nezadovoljivo in se sklicuje na ljudi, ki ne eksistirajo. V celoti napiši znova in osnutek predloži višji avtoriteti, preden ga vložiš.

Slovenski prevod

Tako pa so videti strojni prevodi:

Med delovanjem Winstona so tri pnevmatike zdrsnile iz pnevmatske cevi, vendar so bile to preproste zadeve, in odstranil jih je, še preden ga je prekinila Sovraštvo dveh minut. Ko se je sovraštvo končalo, se je vrnil v svojo kabino, vzel slovar z novostjo besedo s police, potisnil govornik na eno stran, očistil očala in se nastanil do njegove glavne jutranje službe.
Winstonovo največje veselje v življenju je bilo njegovo delo. Večina je bila dolgočasna rutina, toda vključena v to so bila tudi delovna mesta, ki so bila tako težka in zapletena, da bi se lahko izgubila v njih kot v globini matematične težave – občutljivi ponaredki, pri katerih vas ni bilo treba nič voditi, razen vašega poznavanje načel Ingsoca in vašo oceno tega, kaj je stranka hotela povedati. Winston je bil dober v takšnih stvareh. Ob neki priložnosti so mu celo zaupali popravljanje vodilnih člankov ‘The Timesa’, ki so bili v celoti napisani v Newspeaku. Odvil je sporočilo, ki ga je odložil že prej. Tekla je:
krat 3.12.83 poročanje bb dayorder doubleplusungood refs unpersons prepisati v celoti upsub antefiling
V Oldspeaku (ali običajni angleščini) bi to lahko postavili: Poročanje o ukazu Big Brotherja za dan v „The Times“, 3. decembra 1983, je izjemno nezadovoljivo in navaja sklice na neobstoječe osebe. Ponovno ga napišite in pred vložitvijo osnutek pošljite višjemu organu.

Google Translate

Tri sporočila so zdrsniti iz pnevmatske cevi, medtem ko Winston je delal, vendar so bile preproste zadeve, in ga je odtujila pred dve minuti sovraštvo ga prekine. Ko je sovraštvo je več kot se je vrnil v svojo kubikul, je Newspeak slovar od police, potisnil speakwrite na eni strani, očistiti svoje očala, in poravnajo na njegovo glavno delovno mesto zjutraj.
Winston je največji užitek v življenju je bil v svojem delu. Večina je bila dolgočasno rutinsko, vendar je vključena v njej je bilo tudi delovna mesta, tako težko in zapletena, da bi lahko izgubite sebe v njih, kot v globinah matematični problem-občutljivo kosov ponarejanja, v katerem niste imeli nič, da vas vodijo, razen vaše poznavanje načela Ingsoc in vašo oceno o tem, kaj je pogodbenica želela, da rečeš. Winston je bil dober v takih stvari. Včasih je bil celo zadolžen za popravek “The Times” vodilnih člankov, ki so bile napisane v celoti v Newspeak. On je odvaljal sporočilo, ki ga je razveljavilo prej. Tekel je:
krat 3.12.83 poročanje BB dayorder doubleplusungood refs unpersons reportaža fullwise upsub antevložitve
V Oldspeak (ali standard angleščina) to bi lahko bile opravljene: poročanje Big Brother ‘ s Order za dan v “Times” decembra 3rd 1983 je zelo nezadovoljiva in daje sklicevanja na ne-obstoječe osebe. Reportaža je v celoti in predloži svoj osnutek višji organ pred vložitvijo.

Microsoft Bing

Tri sporočila so zdrsnila iz zračnice, ko je Winston delal, a so bila preprosta.znebil se jih je, preden ga je prekinilo sovraštvo. Ko je Sovraštvo se je več kot se je vrnil v svoj prostor, vzel slovar Novoreka s police, potisnil narekovalnega na eni strani, očistiti svoje očala, in se naselili na njegovo glavno delo od jutra.
Winstonov največji užitek v življenju je bil v njegovem delu. Največ je bilo dolgočasno rutino, ampak so vključene v to, bili pa so tudi delovna mesta, zato je težko in zapleteno, da bi lahko izgubite sebe v njih kot v globinah matematični problem—občutljivo kosov ponarejanja, v katerem ste imeli nič, da vas vodi, razen svojega znanja načel Angsoca in vaša ocena o tem, kaj Stranka želela si povedati. Winston je bil dober v teh stvareh. Občasno je celo zaupali popravek ‘časa’ vodilnih člankov, ki so bili v celoti napisani v Novoreku. Preklical je sporočilo, ki ga je dal na stran. Tekel je.:
čas 3.12.83 poročanja bb dayorder doubleplusungood refs unpersons reportaža fullwise upsub antefiling
V časniku), to je lahko postanejo: poročanje o Big Brother je, Da za en Dan v ‘časa’, z dne 3. decembra 1983 je zelo nezadovoljivo in naredi sklicevanja na neobstoječe osebe. Prepiši ga v celoti in pred vložitvijo Zahtevaj osnutek višjemu organu.

Yandex

Tri sporočila so se zdrsnila iz pnevmatske cevke, medtem ko je Winston delala, vendar so bile preproste stvari, in jih je dal odstraniti, preden ga je Hate prekinil. Ko je bil Hate končan, se je vrnil v svojo pisarno, vzel slovar s police, potisnil črtico na eno stran, mu očistil očala in se ustalil v glavni službi zjutraj.
Winstonovo največje zadovoljstvo v življenju je bilo njegovo delo. Večina tega je bila dolgočasna rutina, vendar je bila vključena v tako težke in zapletene naloge, da bi se lahko izgubili, kot v globinah matematične težave, ki vam jih ni bilo treba voditi, razen vašega poznavanja tega, kar je stranka želela povedati. Winston je bil dober v tem. Občasno mu je bilo zaupano, da je objavil “The Times”, ki so bili v celoti zapisani v Newgovorju. Umaknil je sporočilo, ki ga je pustil prej.
Tekel je:
Čas 3.12.83, ki poroča bb Dayorder doubleplusungood refs neoseb repression updating updating
Lahko bi se to zgodilo, saj je to mogoče: Poročanje o odredbi velikega brata za dan v “The Times” 3. decembra 1983 je izredno nezadovoljivo in se nanaša na neobstoječe osebe. Prepisal sem ga v celoti in pred arhiviranjem predložil vaš osnutek višjemu organu.

IJS

Kaj lahko opazimo?

Kljub temu, da je bil edini, pri katerem so sporočila iz pnevmatične cevi postala pnevmatike, se je tudi tokrat najbolje odrezal Google. V primerjavi z ostalimi prevajalniki opazimo, da je najbližje naravnemu jeziku, saj ima bistveno manj težav z notranjim ujemanjem in vrstnim redom besed. Pri Orwellovih tvorjenkah (speakwrite, Newspeak, Ingsoc, Oldspeak) moramo izpostaviti Yandex, ki je prepoznal Novorek in Angsoc, z “narekovalni” pa je še vedno razmeroma blizu govorno-pisalnemu stroju (speakwrite je Google prevedel kot govornik, IJS kot črtica, Bing pa je ostal pri speakwrite). Po ocenah Aikwitove ekipe Googlu sledi prevajalnik IJS, ki je na drugo mesto uvrščen predvsem zaradi občasnih izpustov – tako kot pri Yandexu sta recimo izpadla Starorek in običajna angleščina. Noben od prevajalnikov ni pravilno prevedel fraze “it ran”, kar pa je pričakovati, saj je šele iz konteksta razvidno, da je “it ” sporočilo.

 

Ocene Aikwitove ekipe

Oglejmo si, kako smo v Aikwitu ocenili tri prevode na lestvici od 1 do 5. 1 pomeni povsem nerazumljiv prevod, 5 pa pomeni prevod, ki je po kakovosti enak uradnemu prevodu človeškega prevajalca.

 GoogleBingYandexIJS
Davorin3,51,522
Goran2,511,52
Damijan3122,5
Andraž31,51,52,5
Povprečje2,37511,252,125

Podobno kot v prejšnji rundi je spet zmagovalec Google, sledi pa mu IJS strojni prevajalnik.

In še skupni rezultati:

 GoogleBingYandexIJS
Skupaj2,6881,3751,9692,292

* Omejitev velikosti datotek je 10 MB. Če imate večje datoteke, izpolnite kontaktne podatke in naša prodajna ekipa vas bo nemudoma kontaktirala.

Potrebujete prevod?

Kontaktirajte nas in pripravili vam bomo prilagojeno ponudbo.

Izpolnite obrazec in pripravili vam bomo prilagojeno ponudbo. Za več informacij nas lahko tudi pokličete na +386 1 620 26 16.