V tokratnem prispevku predstavljamo tri novejše vire za raziskovanje sodobne jezikovne rabe slovenskega jezika – posodobljeni korpus Gigafida ter slovarja sopomenk in kolokacij. Gre za projekte Centra za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT), ki je bil ustanovljen s ciljem vzpostavitve in vzdrževanja temeljnih digitalnih jezikovnih virov in jezikovnotehnoloških orodij za sodobni slovenski jezik, prosto dostopnih na spletu.
Gigafida 2.0, posodobljena junija 2019, je nadgradnja predhodne različice Gigafida, od katere se razlikuje predvsem po tem, da gre za korpus pisne standardne slovenščine, saj je bila iz njega odstranjena večina besedil z nestandarnimi elementi. Odstranjena so bila tudi podvojena besedila in uporabljeno novo strojno jezikoslovno označevanje. Gre za korpus sodobnega slovenskega jezika, v katerem veliko večino predstavljajo besedila, nastala po letu 2000. 27 odstotkov nove Gigafide 2.0 predstavljajo besedila, objavljena po letu 2012, ko je izšla prejšnja različica korpusa. Največji del besedil, vključenih v korpus, izvira iz časopisov (47,8 %), sledijo splet (28 %) in revije (16,5 %). Enostavno in napredno iskanje ostajata enaka, prav tako možnost filtriranja zadetkov glede na vrsto besedila, vir in leto nastanka. S klikom na besedo v konkordanci si lahko ogledamo celoten odstavek, v katerem se pojavi iskano geslo.
Na podatkih Gigafide temeljita nova slovarja sopomenk in kolokacij CJVT sopomenke 1.0 in CJVT kolokacije 1.0. Slovar sopomenk zajema več kot 100.000 iztočnic in več kot 300.000 sopomenk. Zbirka sopomenk se generira avtomatsko, pri čemer slovar zajema iz različnih podatkovnih zbirk in omogoča primerjavo rabe ter povezave na podatke Gigafide. Slovar sopomenk kot t.i. odzivni slovar predstavlja novost v slovenskem prostoru, saj temelji na odprto dostopni zbirki, ki se s sodelovanjem jezikovne skupnosti preoblikuje v prečiščeno bazo. Tovrstni slovarji so slovarji v nenehnem nastajanju, ki se prilagajajo spremembam jezikovne realnosti ter napredku pri metodologiji njihove izdelave. Zbirka poleg podatkov iz Gigafide temelji še na Velikem angleško-slovenskem slovarju Oxford-DZS; glede na sopojavljanje besed v prevodnih nizih slovarja se te ločijo na jedrne in bližnje sopomenke, pri čemer so jedrne povezane tesneje.
Slovar omogoča, da sopomenke izbranemu geslu razvrstimo po relevantnosti, abecedi, dolžini ali ocenah uporabnikov, zelo priročen pa je tudi drsnik, s pomočjo katerega jih lahko filtriramo glede na pogostost. S klikom na sopomenko lahko primerjamo posamezen par besed glede na njune kolokacije, pri čemer so predstavljeni tudi primeri rabe, ki nam lahko pomagajo pri izbiri prave besede.
Kolokacijski slovar vsebuje več kot 35.000 iztočnic in več kot 7.000.000 kolokacij ter je prvi takšen slovar za slovenski jezik. Tako kot slovar sopomenk sodi med odzivne slovarje in podatke pripravlja avtomatsko, pri čemer je ob vsakem geslu označena stopnja njegove prečiščenosti, od avtomatsko izluščenih in še neprečiščenih podatkov do ročno urejenih in pregledanih kolokacij. Rezultate iskanja lahko filtriramo glede na strukture (pojavljanje skupaj s samostalniki, pridevniki, prislovi ali glagoli) ter predloge, s katerimi se veže iskano geslo. Podobno kot pri slovarju sopomenk lahko s pomočjo drsnika raziskujemo pogostost, s klikom na izbrano kolokacijo pa njene pojavitve v Gigafidi).
Ker izhajajo iz sodobne rabe slovenskega jezika in uporabljajo napredne tehnologije in metodologije računalniškega jezikoslovja, predstavljeni viri zapolnjujejo vrzel v slovenskem slovarskem prostoru. Pomagajo tako pri učenju jezika kot pri njegovi rabi, tj. produkciji in prevajanju besedil. Kar zadeva prevajanje, je slovar kolokacij uporabno orodje, ko se želite prepričati o ustreznosti določene besedne zveze oziroma preveriti, da ne gre za interferenco z drugim jezikom ali dobesedno prevajanje fraz med jezikoma namesto nadomeščanje z ustreznico. V vsakodnevni praksi ugotavljamo, da po slovarju sopomenk najpogosteje posegamo pri prevajanju marketinških in umetniških besedil, skratka v primerih, ko uporaba sopomenk predstavlja tudi slogovno izbiro.
* Omejitev velikosti datotek je 10 MB. Če imate večje datoteke, izpolnite kontaktne podatke in naša prodajna ekipa vas bo nemudoma kontaktirala.
Izpolnite obrazec in pripravili vam bomo prilagojeno ponudbo. Za več informacij nas lahko tudi pokličete na +386 1 620 26 16.
Ljubljanska cesta 84
1354 Horjul
Telefon: +386 1 620 26 16
E-mail: info@aikwit.com