Nekajkrat smo že preverili (1, 2, 3, 4), kako dobro se strojni prevajalniki spopadejo z literarnimi besedili. Kljub velikemu skoku v kakovosti, do katerega je prišlo ob prehodu na algoritme nevronskih mrež (Strojno prevajanje je zanič, mar ne?), smo ugotovili, da je še precej prostora za napredek. Veliko je sicer odvisno od pričakovanj, saj so deli prevodov dobri, celota pa je še daleč od dobrega literarnega prevoda.
Toda strojni prevajalniki primarno niso namenjeni prevajanju literarnih besedil. Precej bolj realna je situacija, ko potrebujemo hiter prevod spletne strani, e-pošte ali dopisa. Pričakovali bi, da bo kakovost prevodov pri takih besedilih precej boljša, zato smo se odločili, da jo bolj natančno stestiramo. V tej seriji blogov bomo torej preizkušali strojne prevajalnike z besedili, s katerimi se največkrat srečujejo.
Vsak teden ali dva bomo izbrali kratko besedilo in ga strojno prevedli z nekaj najbolj uveljavljenimi brezplačnimi strojnimi prevajalniki.
Tekmovalci so: Google Translate, Microsoft Bing Translator, strojni prevajalnik ruskega iskalnika Yandex Translate in tekmovalec iz domačih logov, ki so ga razvili v laboratoriju za umetno inteligenco na Institutu Jožefa Stefana. Vsi štirje člani Aikwitove ekipe bomo strojne prevode ocenili z oceno od 1 do 5, kjer je 5 najvišja in 1 najnižja ocena. Tako bomo skozi čas dobili povprečno oceno kakovosti posameznega strojnega prevajalnika.
V prejšnjem blogu smo si pogledali, kako dobro strojni prevajalniki prevajajo pravilnik o zasebnosti, ki ga mora objaviti vsako podjetje na spletu, tokrat pa bomo vzeli krajši odsek iz navodil za uporabo (za tiskalnik), ki so eden od najbolj pogostih tipov besedil za prevajanje:
Takole se je z besedilom spopadel Google:
Tako Bing:
Tako Yandex:
In tako IJS:
V splošnem so prevodu slabši v primerjavi s prevodi pravilnika o zasebnosti. Google Translate ostaja korak pred konkurenco, IJS prevajalnik pa zaostaja. Razlog je najverjetneje v tem, da imajo ostali trije na voljo več podobnih besedil (navodil) za učenje stroja, IJS pa uporablja zgolj javno dostopne zbirke prevodov. Velika večina med njimi so besedila, ki nastajajo v okviru Evropske unije, med katerimi ni veliko navodil za uporabo. Opazimo lahko tudi, da imajo vsi težave z doslednostjo pri obravnavo elementov uporabniškega vmesnika (Collate pages, Automatic, Reverse). Tudi to je razumljivo, če vemo, da se prevajanje teh elementov razlikuje med različnimi navodili za uporabo, zato učni podatki niso dosledni, to pa se pokaže v kakovosti strojnega prevoda. Pri Bingu lahko poleg tega opazimo, da ne prepozna naštevanja in stavke začenja z malo začetnico, Yandex pa v enem primeru preklopi iz vikanja na tikanje.
Ti prevodi dobro ponazorijo pomen kakovostnih učnih podatkov za strojno prevajanje in kako se napake v učni množici preslikajo v končni rezultat.
Oglejmo si, kako smo v Aikwitu ocenili tri prevode na lestvici od 1 do 5. 1 pomeni povsem nerazumljiv prevod, 5 pa pomeni prevod, ki je po kakovosti enak uradnemu prevodu človeškega prevajalca.
Bing | Yandex | IJS | ||
Davorin | 3 | 2 | 2 | 1 |
Goran | 3 | 2,5 | 2 | 1 |
Damijan | 3 | 3 | 1,5 | 1 |
Andraž | 3 | 2,5 | 2 | 1 |
Povprečje | 3 | 2,50 | 1,875 | 1 |
Hvala za pozornost in se vidimo v naslednji epizodi!
* Omejitev velikosti datotek je 10 MB. Če imate večje datoteke, izpolnite kontaktne podatke in naša prodajna ekipa vas bo nemudoma kontaktirala.
Izpolnite obrazec in pripravili vam bomo prilagojeno ponudbo. Za več informacij nas lahko tudi pokličete na +386 1 620 26 16.
Ljubljanska cesta 84
1354 Horjul
Telefon: +386 1 620 26 16
E-mail: info@aikwit.com