Za reševanje trenutnih izzivov potrebujemo neprimerno več gradiva kot v preteklosti
Pogovor s Špelo Arhar Holdt o jezikovnih virih in tehnologijah
Martin Justin
Na četrtem dogodku v ciklu Umetna inteligenca v kulturi smo se s Špelo Arhar Holdt pogovarjali o jezikovnih virih in tehnologijah. Arhar Holdt je raziskovalka na Centru za jezikovne vire in tehnologije, ki pri raziskovanju in razvoju tehnologij, virov in orodij za slovenščino združuje strokovnjake šestih fakultet Univerze v Ljubljani. Raziskovalno se ukvarja s področji digitalne slovenistike, korpusnega jezikoslovja, odprtih podatkov in jezikovne didaktike, sodelovala pa je pri razvoju številnih jezikovnih virov in orodij, ki so nam danes na voljo.
Pogovore v tem ciklu rad začnem s terminološkimi in pojasnjevalnimi vprašanji. Torej: kaj so jezikovni viri in tehnologije oziroma ali lahko opišeš raziskovalne projekte, s katerimi se ukvarja CJVT?
Jezikovni viri so zbirke jezikovnega gradiva, ki jih izdelujemo za različne raziskovalne in razvojne namene. Tipičen primer jezikovnega vira so besedilni korpusi, na primer referenčni korpus pisane standardne slovenščine Gigafida, korpus govorjene slovenščine Gos, korpus šolskih besedil Šolar. To so velike zbirke avtentičnih besedil, kot bi recimo lahko naredili korpus literature, ki nas v tem prostoru obkroža: najprej bi zbrali besedila, zraven vključili metainformacije o avtorju, letu in okoliščinah izdaje, potem bi besedila jezikoslovno označili in dali v programe, s katerimi bi po gradivu lahko iskali ter raziskovali, kako se besede, besedne zveze pojavljajo, kako živijo v kontekstu, kakšne so strukture in tako naprej.
Druga vrsta jezikovnih virov so razne podatkovne množice v digitalni obliki, recimo slovarske baze. Sem spadajo tudi učne množice, besedila, ki jih jezikoslovno obdelamo, zato da se lahko stroj iz njih nekaj jezikovnega nauči. Pa evalvacijske množice, s katerimi nato preverjamo, kako dobro se je stroj nečesa naučil.
Jezikovne tehnologije so programi, aplikacije oziroma orodja, ki nam neki jezikovni problem pomagajo rešiti. Najbolj poznane so tehnologije za strojno prevajanje, prepoznavo govora, sintezo govora, tehnologije, ki nam pomagajo pisati – to so črkovalniki, slovnični pregledovalniki, generativne tehnologije, ki z nami že jezikovno soustvarjajo – tehnologije, ki nam pomagajo, da se česa učimo (t. i. computer-assisted language learning) …
Center za jezikovne vire in tehnologije Univerze v Ljubljani pa je raziskovalna enota, kjer raziskovalci in raziskovalke z različnih fakultet interdisciplinarno poskušamo poskrbeti za to, da bi bili ti viri in tehnologije na voljo tudi za slovenščino.
Kakšen je pomen korpusov avtentične slovenščine, kot sta Gigafida in Gos? Sam Gigafido kdaj uporabim, da preverim, ali oziroma kako se neka beseda uporablja, a si predstavljam, da imajo korpusi tudi širši raziskovalni pomen.
Za nas v jezikoslovju predstavljajo korpusi vzorec, ki ga preučujemo. Kot aplikativna jezikoslovka si zelo težko predstavljam, da bi brez takšnega vzorca o jeziku karkoli povedala. Korpusi so narejeni za to, da lahko s pomočjo računalnika opazujemo jezik, kakršen v resnici je, kakršnega je številna množica različnih govorcev in govork ustvarjala skozi leta.
Korpusi so uporabni tudi za to, da primerjamo različne vrste jezika med sabo. Primerjamo lahko denimo standardno in nestandardno slovenščino. Za slovenščino obstaja na primer korpus Janes, ki vključuje tvite, bloge in podobna besedila, kar se da potem super primerjati z besedili v Gigafidi, imamo zgodovinske korpuse, s pomočjo katerih lahko raziskujemo, kako se jezik razvija. Na voljo je tudi orodje Korpusnik, s pomočjo katerega lahko brskamo po različnih korpusih za slovenščino in ki nam tudi samo predstavi zanimive statistike o jeziku.
Korpusi so za jezikoslovce torej empirična podstat – tako kot imajo recimo biologi in geologi svoje vzorce, imamo tudi mi svoje vzorce, s pomočjo katerih lahko raziskujemo jezik.
Kako pogosto pa se korpusi posodabljajo?
Odvisno od korpusa in odvisno od financerja [smeh]. Za referenčne korpuse, tiste, ki jih tudi največ uporabljamo – to sta predvsem Gigafida in Gos –, skušamo redno skrbeti. V preteklosti smo novo različico teh dveh korpusov naredili na ca. tri do pet let. Gigafida 2.0 je iz leta 2019, zato je že čas za naslednjo posodobitev. A tudi v vmesnem obdobju sproti zbiramo gradivo za spremljevalni korpus Trendi, zlasti z novičarskih spletnih portalov.
Metodologija zbiranja se tudi precej spreminja. Za prvi korpus imamo korpus Brown, ki je bil narejen v začetku šestdesetih let, ko so je malokdo sploh imel računalnik in digitalno pisal, a so ustvarjalci korpusa vseeno uspeli doseči milijon besed. V sedemdesetih so nadaljevali na podoben način, v osemdesetih in devetdesetih se začnejo korpusi večati. Naš prvi korpus, FIDA, ki je nastal konec devetdesetih, je vseboval 100 milijonov besed, FidaPLUS jih je leta 2006 vsebovala 600 milijonov, Gigafida jih vsebuje več kot milijardo. In zdaj razvijamo slovenski veliki jezikovni model, ki potrebuje 40 milijard besed. Številka se torej stalno viša, za reševanje trenutnih izzivov potrebujemo neprimerno več gradiva kot v preteklosti.
Eno od orodij, ki si jih prej omenila, so bili tudi slovarji. Primer takšnega slovarja, ki ga je izdelal CJVT, je Slovar sopomenk sodobne slovenščine. Ta je nastal s pomočjo strojnih metod za obdelavo jezika, v tem primeru za iskanje sopomenk. Kako poteka izdelovanje takšnih orodij?
Center za jezikovne vire in tehnologije je raziskovalna inštitucija in ima v primerjavi s tradicionalnimi slovaropisnimi ustanovami v našem prostoru to prednost, da lahko razvija in preizkuša novosti, eksperimentira. Večina naših izdelkov vključuje kako inovacijo.
Slovar sopomenk je dober primer, saj vključuje dve novosti, ki prej za slovenščino, pa tudi mednarodno, še nista obstajali. Prva je ta, da smo slovar naredili čisto strojno, in sicer tako, da smo vzeli angleško-slovenski slovar Oxford-DZS in korpus Gigafida, potem pa je Simon Krek v sodelovanju z računalniško ekipo razvil postopek, kako iz teh dveh virov pridobiti in urediti podatke o sopomenkah. Rezultate smo evalvirali in ugotovili, da je približno 75 odstotkov tega gradiva v redu, 25 pa niti ne. Ker pa smo vedeli, da odprti podatki o sopomenkah za slovenščino še ne obstajajo, jih pa skupnost nujno potrebuje, smo želeli slovar izdati čim prej. Posledično smo oblikovali model slovarja, ki ga zdaj imenujemo odzivni slovar. To je slovar, ki je najprej narejen strojno, objavimo ga s takim vmesnikom, da je jasno, da stvar še ni narejena do konca, in omogočimo skupnosti, da sodeluje pri čiščenju in dodajanju novega gradiva.
Sodelovanje s slovarskimi uporabniki in uporabnicami se je v mednarodnem prostoru sicer pojavljalo že prej. Uporabniki so lahko posredovali svoje predloge, a so jih slovaropisci naprej pregledali in objavili šele z zamikom. Pri Slovarju sopomenk smo bili malo bolj drzni in se odločili skupnosti res zaupati. Uporabniki našega slovarja lahko predlagajo sopomenko, ki se bo v slovarju tudi takoj pojavila, drugi uporabniki pa lahko potem glasujejo, ali je v redu ali ne. In to je res dobro uspelo. Od uporabnikov smo dobili več kot 75 tisoč sopomenk. Predlogi so tudi zelo konstruktivni, tako da je to res fantastičen model.
Ali ste imeli kakšne težave? Ste morali kakšne predloge odstraniti?
Analize so pokazale, da je približno 90 odstotkov predlogov konstruktivnih, deset odstotkov pa je takšnih, ki jih morda ne bi želeli vključiti v podatkovne baze. Je bilo pa zelo malo predlogov destruktivnih, večinoma je šlo za napake. Zelo malo je bilo primerov, ko bi nekdo poskušal uničevati sam koncept. Morda je najbližji tak scenarij raba v razredu, kjer so učitelji slovar kot pripomoček pokazali učencem, potem pa je kdo od teh pri kaki neprimerni iztočnici kot sopomenke napisal imena svojih sošolcev. Tako da, ja, so tudi takšne pobalinskosti, česar se zavedamo. Zato smo začeli bolj pozorno opazovati tisto besedišče, ki bi lahko spodbujalo k sovražnemu govoru, pa tudi grobo besedišče. Sicer pa je to res zgodba o skupnosti, ki zna graditi sama zase.
Kako dobro je z vidika jezikovnih virov in tehnologih slovenščina podprta v primerjavi z veliki svetovnimi jeziki, kot sta angleščina in španščina?
Mislim, da predstavljajo angleščina, španščina, kitajščina in drugi takšni jeziki, ki imajo res ogromno število govorcev in govork in posledično ogromno jezikovnega gradiva, svojo skupino, s katero se sploh nima smisla primerjati. Lahko pa seveda spremljamo, kaj nastaja za velike jezike, in potem strateško premislimo, kaj bi bilo treba pripraviti tudi za slovenščino.
Če se primerjamo s podobnimi evropskimi jeziki, je slovenščina nekako srednje opremljena, ampak ne najboljša med srednje opremljenimi jeziki. Nekatere stvari so super, druge še precej nezrele, pojavljajo pa se tudi vedno nove naloge, tehnološki razvoj gre hitro naprej. Slovenščina kot jezik ni manjša od angleščine, se pravi imamo pri razvoju jezikovnih virov in tehnologij približno enako nalogo, kot jo imajo za večje jezike. Tudi to, da je v splošnem manj gradiva, nekako še zmoremo; največji problem je, da imamo majhno raziskovalno-razvojno skupnost. Zelo se trudimo, da bi kadre usposobili, specializirali za področje, ki je zelo ozko, ampak ker nimamo veliko ljudi, smo s tega vidika zelo ranljivi. Če npr. med dvema projektoma nekaj časa ni financiranja in zato dva raziskovalca odideta, je lahko to za slovenščino precej bolj usodno kot za angleščino, kjer je več ljudi, ki se s tem raziskovalno ukvarjajo.
Ob dogovarjanju za intervju si namignila, da je v nastajanju veliki jezikovni model za slovenščino. Kot si že omenila, takšni modeli zahtevajo ogromne količine podatkov. S korpusi takšne jezikovne podatke že dolgo zbirate – jih je dovolj ali to predstavlja problem?
Zdaj smo ravno v fazi priprav na zbiranje gradiva za slovenski veliki jezikovni model. Na začetku smo zbrali in združili vse obstoječe jezikovne vire za slovenščino in prišli do obsega 9,2 milijarde besed. Naš cilj pa je, kot omenjeno, zbrati 40 milijard besed. Tako da bo verjetno potrebna nekakšna nacionalna, vseslovenska zbiralna akcija. V resnici so trenutno zelo zanimivi časi, tudi za tiste, ki smo se prej ukvarjali s korpusi, zdaj pa zbiramo gradiva za drugačen namen.
Predstavljam si, da je razvoj velikega jezikovnega modela tehnično bolj zahteven problem in da pri takšnem projektu jezikoslovci tesno sodelujete tudi s programerji. Kako takšno sodelovanje poteka, je to že ustaljena praksa?
Imamo srečo, da smo že precej uigrana ekipa. CJVT ponuja prostor za interdisciplinarno delo, in prav jezikoslovje in računalništvo sta prvi področji, ki sta začeli na Centru intenzivno sodelovati. Jaz imam z interdisciplinarnim delom zelo dobre izkušnje. Različni profili lahko veliko ponudimo, konec koncev delamo produkte, ki potrebujejo različna znanja.
Je pa res, da se v vseh disciplinah vedno najdejo tudi ljudje, ki ne verjamejo v sodelovanje. Kot slovenistka sem najprej dolgo poslušala, kako nam bodo računalničarji vse uničili. In zadnje čase se seveda sprašujemo, ali imamo jezikoslovci sploh še kaj početi, če lahko tehnologije razvijamo preprosto tako, da se zbere gradivo, potem pa se stroj sam nekaj nauči – ne vemo vedno, kaj točno, dela pa zelo dobro. Ampak se mi zdi, da so ti pomisleki odveč: najbolj uporabne, za človeka temeljne in koristne rezultate je mogoče doseči samo s sodelovanjem.
Ali misliš, da te tehnologije vplivajo na jezikoslovje ali pa na jezik sam?
Na jezik absolutno, na jezikoslovje pa verjetno tudi. Trenutno imamo v ekipi mladega raziskovalca, doktorskega študenta, ki raziskuje značilnosti organskega jezika – torej besedil, ki jih je napisal človek – v primerjavi z jezikom, ki ga je ustvaril stroj. To je zelo zanimiva tema, ki se ji trenutno posveča vedno več pozornosti: kakšna so besedila, ki jih tvori umetna inteligenca, z vidika besedišča, morfologije, skladnje, kako dobro ji uspe zadeti določene žanre in podobno.
Razvoj jezikovnih virov, sploh ob naglem vzponu generativne umetne inteligence, verjetno pomembno vpliva tudi na poučevanje. Ko je pred dobrim letom in pol izšel ChatGPT, se je na primer veliko govorilo o njegovem destruktivnem vplivu na učni proces. Kje tu vidiš ključne izzive in pasti?
V tem trenutku je težko vedeti, kakšni bodo pozitivni in negativni učinki jezikovnega soustvarjanja z umetno inteligenco. V resnici tudi nismo zares opremljeni, da bi natančno spremljali te učinke in trende v jezikovnih kompetencah učencev. Meni se zato zdi najprej nujno poskrbeti za napreden digitalno podprt monitoring, da bomo lahko dovolj natančno spremljali, kako učenci pišejo zdaj, kako čez pet, deset let, potem bomo pa videli, kako ukrepati.
Sicer pa je s temi tehnologijami povezanih predvsem veliko čustev. Jaz sem že kar nekaj časa v raziskovanem svetu, neprestano prihajajo novosti, ampak od trenutka, ko je javnost spoznala ChatGPT, opažam več strahu, kaj bodo tovrstne tehnologije odpravile, uničile, nadomestile in pogubile. Na drugi strani pa strah pred tem, da ne bomo dovolj hitro zagrabili priložnosti, da nas bo nekdo prehitel, da nas bo povozil čas, če ne reagiramo nemudoma. Raziskovalni svet je eno, ampak preden z umetno inteligenco pridemo v šole, je treba ta čustveni del umiriti, stopiti korak nazaj in razmisliti, kaj bi pravzaprav z njo v šolskem svetu zares želeli doseči.
Kakšno je torej po tvojem mnenju mesto umetne inteligence v šolah, predvsem pri pouku slovenščine?
Mislim, da imamo nove priložnosti, da res dobro in premišljeno podpremo učiteljsko skupnost. Učitelji so močno časovno obremenjeni in pri tem lahko te tehnologije res pomagajo, npr. pri pisanju poročil ali sestavljanju nalog, razvijemo lahko inteligentne sisteme, ki bodo učitelju pomagali analizirati besedila, ki jih dobijo od učencev, kar bi podprlo individualizacijo pri opismenjevanju. Tehnologije tako ne bi ničesar vzele, nikogar nadomestile, bi pa pomagale, da bi bili učitelji hitrejši in učinkovitejši pri svojem delu.
Pripiši svoje mnenje
Za objavo komentarja se morate prijaviti oz. najprej registrirati.