Ne verjamem, da bo nekakšen računalniški humanist to delo kdaj opravljal sam
Pogovor z Ajdo Pretnar Žagar o umetni inteligenci v humanistiki
Martin Justin
Na tretjem dogodku v ciklu Umetna inteligenca v kulturi, katerega tema je bila uporaba tehnologij umetne inteligence v humanistiki, smo gostili Ajdo Pretnar Žagar. Ta je raziskovalka v Laboratoriju za bioinformatiko Fakultete za računalništvo in informatiko v Ljubljani ter na Inštitutu za novejšo zgodovino. Doktorirala je na temo kvantitativnih pristopov k raziskovanju v antropologiji, raziskovalno pa se ukvarja predvsem s povezovanjem računalništva ter družboslovnega in humanističnega raziskovanja.
V okviru tega cikla smo za zdaj veliko govorili o tehnologijah umetne inteligence, različnih računalniških orodjih za analizo jezika, prepoznavanje slik, pridobivanje znanja iz podatkov. Ti pa se specifično ukvarjaš s strojnim učenjem in podatkovno analizo. Kaj pomenita ta dva pojma, kako se povezujeta s tem širšim pojmom umetne inteligence?
Strojno učenje je načeloma podpodročje umetne inteligence. Teh podpodročij je več, mednja sodijo robotika, strojni vid, sinteza govora, ekspertni sistemi … In strojno učenje je eno od teh podpodročij. Pri čemer gre pri strojem učenju za to, da dobi računalnik podatke in neki cilj ter se nato na podlagi teh podatkov sam nauči vzorcev, potrebnih za dosego tega cilja. Če dam en zelo enostaven primer: recimo, da imamo podatke o starosti, teži in krvnem tlaku tisočih pacientov in želimo ločiti med tistimi, ki so zboleli za gripo, in tistimi, ki niso. Strojno učenje nam v takšnem primeru lahko pomaga, da v podatkih najdemo vzorce, ki nam za nove paciente povejo, ali imajo gripo ali ne. Podatkovno rudarjenje pa je sorodno področje, pri katerem gre za raziskovanje, analizo in vizualizacijo podatkov, torej za bolj splošno iskanje vzorcev v podatkih z uporabo statističnih metod.
Kako se lahko te metode uporabljajo za raziskovanje v antropologiji?
Ko sem sama stopila na svojo raziskovalno pot, je bilo takšno raziskovanje še precej v povojih. Zdaj pa mislim, da se je področje že precej razvilo in je teh raziskav vedno več. Ena od takšnih raziskav, tista, s katero sem najbolj intimno povezana, je moja doktorska naloga. V njej sem raziskovala, kako se ljudje odzivajo na pametno stavbo, torej kakšne so interakcije med ljudmi in pametno stavbo na delovnem mestu. Uporabljala sem podatke, ki jih je s senzorji zbirala neka pametna stavba, zanimalo pa me je, ali ta pametna stavba ljudem pomaga – ali pripomore k temu, da je njihovo delo bolj udobno, ali jih ovira. Na eni strani sem torej imela senzorske podatke iz stavbe, recimo ali je človek v prostoru, ali je odprto okno, kakšna je kakovost zraka. Na drugi strani sem sem z zaposlenimi v stavbi opravila tudi okrog 60 intervjujev. Nato pa sem oba tipa podatkov združila in jih primerjala. To je bilo zanimivo predvsem zato, ker so se na določenih točkah pokazale razlike – nekateri podatki so kazali eno, drugi podatki pa nekaj drugega, zato se je bilo zanimivo vprašati, kaj se v takšnih primerih dogaja. Na primer: zaposleni so bili prepričani, da ko je slab zrak, odprejo okno. Ampak se je izkazalo, da ni tako. V primerjavi s podatki pametne stavbe se je namreč izkazalo, da ljudje precej slabo zaznavamo kakovost zraka, sploh če smo zatopljeni v delo. V tem kontekstu so tako veliko bolj pomembne rutine, na primer odpiranje oken vedno, ko vstopimo v prostor. To je veliko bolj zdrava navada, kot pa da računamo na to, da bomo sami uspeli ugotoviti, da je zrak slab.
Z antropologijo, pa tudi drugimi družboslovnimi in predvsem humanističnimi vedami se običajno povezujejo kvalitativne metode, kot so intervjuji in terenske raziskave, branje in raziskovanje zgodovinskega gradiva, pojmovna analiza ipd. Kot praviš, si v svoji doktorski nalogi te povezovala z računalniškimi. Bo šlo pri humanistiki po tvojem vedno za takšno povezovanje ali misliš, da lahko računalniško podprte metode tudi nadomestijo te bolj klasične humanistične pristope?
V humanistiki je spekter metod, ki se uporabljajo, res zelo širok. Sicer je težko reči z gotovostjo, ampak mislim, da za zdaj še nismo na točki, ko bi tehnologija res lahko nadomestila človeka. Jaz tudi upam, da ga ne bo, da bo samo res dober pomočnik. Vseeno pa nam pri številnih stvareh zelo pomaga. En tak primer je iskanje po arhivskem gradivu. Pomemben korak digitalne humanistike je namreč že digitalizacija gradiva, da je to res elektronsko dostopno, da gradiva ni treba iti iskat v arhiv in brskati po kosih papirja v škatlah, ampak da lahko to naredimo po računalniku. Še bolje pa je, če lahko po tem gradivu iščemo tudi po vsebini, glede na ključne besede. In ravno pristopi umetne inteligence nam pri tem zelo pomagajo. Recimo, da ne iščemo samo pojavitev točnih pojmov, na primer »narodna noša«, ampak da hkrati brskamo tudi za semantično podobnimi pojmi, na primer še »narodni kostumi«, »tradicionalna oblačila«, »oblačila za posebne priložnosti«, ves ta široki spekter pojmov, ki so podobni »narodni noši«.
Metode umetne inteligence nam lahko pomagajo tudi pri rekonstrukciji kulturne dediščine, pa pri pregledovanju in povzemanju velike količine besedil. Mislim, da je takšnih priložnosti za uporabo veliko in da nam lahko te metode zelo pomagajo, ne verjamem pa, da bo nekakšen računalniški humanist to delo kdaj opravljal sam.
Omenila si primerjavo senzorskih podatkov z intervjuji, pa tudi semantično analizo. Kaj so še kakšne druge računalniške metode, ki se lahko uporabljajo za raziskovanje v antropologiji in humanistiki vobče?
Raziskave so zelo različne. Zdi se mi, da je največji poudarek na uporabi metod naravnega jezika za analizo intervjujev, objav na socialnih medijih, zapisov na blogih. Obstajajo pa tudi drugačne raziskave. V neki zanimivi antropološki študiji so raziskovalci na primer na podlagi posnetkov kamer v neki optiki ugotavljali, kako se ljudje gibljejo po prostoru. Tako so na primer ugotovili, da morajo dati nekatere izdelke zelo blizu vhodu, ne pa preblizu. Na neki način so se torej igrali s postavitvijo izdelkov v trgovini, jih poskušali postaviti tako, da ljudje ne stojijo čisto pri vhodu, kot da jim je malo nerodno, ampak stopijo v trgovino in dosežejo interakcijo s prodajalcem. Tako da je spekter raziskovanja precej širok, imamo tudi takšne zelo aplikativne projekte.
Videl sem tudi, da ste s soavtorji objavili članek, v katerem ste analizirali podatke o prometu v Sloveniji. Lahko kaj poveš o tem?
Ta raziskava je bila malo hecna [smeh]. Bila je del širšega projekta, kjer je bil cilj podpreti pametni turizem. Torej, kako bi lahko na podlagi podatkov ljudem podali pametna priporočila oziroma namige za kakšne malo bolj zanimive destinacije, da ne bi šli vsi v Kranjsko Goro pa na Bled. Naš cilj je bil najprej analizirati te turistične tokove. Obljubljeno nam je bilo, da bomo za to analizo dobili anonimizirane podatke od Telekoma. Nam je bilo že na začetku jasno, da je to zelo malo verjetno, in jih potem seveda tudi nismo. Zato smo iskali druge rešitve. Tako smo se spomnili, da Direkcija za infrastrukturo objavlja Darsove podatke s senzorjev prometa. Ti senzorji beležijo tudi tipe vozil, ločijo med tovornjaki, avtobusi, osebnimi vozili, motorji. Ti podatki so tudi prosto dostopni, tako da smo rekli super in jih vzeli.
Potem pa smo jih začeli raziskovati. Ko smo vzeli splošne frekvence prometa, je bila Primorka vedno čisto na vrhu, kar je smiselno, je nekako glavna arterija, ki pelje čez Slovenijo. Ampak to ni tako zanimiva ugotovitev, vsi vemo, da je na Primorki vedno gužva. Zato smo se vprašali, ali lahko najdemo še kaj, ali obstajajo še kakšne druge statistične meritve, ki bi dale kakšne bolj zanimive podatke. In tako smo odkrili neko meritev, ki nam je pokazala tudi lokalne vrhove prometa. Kot antropologinjo pa me je potem tudi zanimalo, zakaj do teh pride. Zakaj je na primer pri Jančah najvišja frekvenca prometa v oktobru? Izkazalo se je, da je odgovor čisto preprost: ker so imeli takrat festival kostanja. In takih primerov je bilo kar nekaj. Na ta način smo tako odkrili takšne lokalne zanimivosti, ki lahko potem pomagajo razpršiti turistične tokove tudi izven turističnih središč.
Kakšen problem pri digitalni humanistiki pa so podatki? Kot si povedala, ste imeli pri tem projektu precejšnje težave s podatki – se to pogosto dogaja? Lahko še prej na kratko razložiš, kaj je digitalna humanistika?
Digitalna humanistika je zelo v splošnem področje humanistike, ki poleg klasičnih uporablja tudi računalniške metode. Je pa to izrazito široko področje, ki zajema bibliotekarske vede, zgodovino, pedagogiko, jezikoslovje, literarno vedo … V svetovnem merilu je ravno obdelava besedil precej dobro zastopana, torej strojno učenje za analizo besedil, od prepoznavanja stilov avtorjev do čisto vsebinskih analiz.
Kar se Slovenije tiče, pa se mi zdi, da je ta segment analize besedil morda manj zastopan, je pa zato zelo močna izdelava korpusov. Na globalni ravni se namreč ljudje ukvarjajo predvsem z angleščino, zato so orodja za obdelavo angleščine večinoma dostopna na spletu. Medtem ko je za slovenščino orodij manj – sploh v preteklosti je bilo tako, zdaj jih razvijajo tudi drugi, ChatGPT na primer zna tudi slovensko – zato je bil pomemben prvi korak, da čim več besedil digitaliziramo, uredimo, izdelamo korpuse in jih ročno označimo. Pri izdelavi korpusov in modelov namreč ni pomembno samo to, da besedila zbereš in digitaliziraš, ampak jih je treba tudi lepo označiti, se pravi določiti osnovne lastnosti besed, oblikoslovne značilnosti, torej dodati informacije, ki bodo uporabne kasneje. Vse to je bilo treba narediti, s tem se ukvarja velik del digitalne humanistike v Sloveniji.
Kaj pa onkraj jezikoslovja?
Jaz lahko odgovorim samo za zgodovino, ker delam na Inštitutu za novejšo zgodovino. Mi recimo trenutno precej delamo s političnimi podatki, torej s starimi zapisi sej iz Kranjskega državnega zbora, pa tudi s starimi časopisi z začetka 20. stoletja. Te digitaliziramo, pa tudi analiziramo. Precej težav je še, ker so podatki za zdaj še zelo slabi. Ti stari časopisi imajo zelo majhna polja z besedilom, slike, razmejitvene črte, okrašene inicialke, zato ima računalnik velike težave s prepoznavanjem, kje je besedilo, kako teče, kaj sodi skupaj. Potem pa takšne podatke seveda tudi analiziramo, poskušamo ugotoviti, kaj se je dogajalo v državnem zboru, kako so politiki govorili včasih, kako so se stranke med sabo razločevale, so imele različna besedišča, različne teme.
Poleg tega, da delaš na Inštitutu za novejšo zgodovino, si tudi raziskovalka na Fakulteti za računalništvo in informatiko, kjer sodeluješ pri razvoju orodja za podatkovno analitiko Orange. To je oblikovano zelo intuitivno, njegova uporaba tudi ne zahteva posebnega programerskega znanja. Kako se lotiti oblikovanja in učenja uporabe orodij, namenjenih širši množici uporabnikov, na področju, ki sicer velja za izjemno tehnično zahtevno?
Ja, Orange je v resnici zelo star program, veliko ljudi tega ne ve, ampak mislim, da je začel nastajati že leta 1995. In po besedah mojih šefov, profesorja Janeza Demšarja in pa profesorja Blaža Zupana, ki sta ta program začela razvijati, je bil takrat manko v programih za podatkovno analitiko, ki ne bi zahtevali programerskega znanja. Zakaj je bil to sploh problem, koga sta videla kot ciljno publiko takšnega programa? Laboratorij, v katerem delam, je Laboratorij za bioinformatiko, ki je sodeloval in še vedno veliko sodeluje z biologi, raziskovalci v medicini, kemiki, torej s strokovnjaki na svojih področjih, ki pa ne znajo vsi programirati. Tako da so pravzaprav oni izrazili potrebo po programu, v katerem bi podatke kljub temu lahko analizirali tudi sami.
Tako je Orange začel nastajati, od takrat je šel že čez nekaj iteracij, zdaj smo pri tretji verziji programa, ki je tudi veliko bolj vizualno prijetna, kot je bila prva. Včasih je bil torej to res program za biologe, zdaj pa smo ga zelo razširili in nekako tudi spremenili njegov fokus. Še zmeraj ima dostop do vseh klasičnih algoritmov strojnega učenja, še vedno delamo tudi z biologi in razvijamo komponente zanje. Ampak v zadnjem času smo dali velik poudarek izobraževanju. Program prilagajamo tudi za osnovne in srednje šole, kjer poskušamo oblikovati učne ure z uporabo umetne inteligence. Ne toliko o umetni inteligenci, ampak ure, pri katerih umetna inteligenca pomaga pri razumevanju neke snovi iz učnega načrta.
Je mogoče Orange uporabljati tudi za katero od teh metod v antropologiji ali zgodovini, o katerih si govorila prej?
Ja, jaz veliko uporabljam Orange. Ne bom rekla izključno, ker so nekatere metode preprosto malo prezahtevne ali pa jih je treba kombinirati iz različnih virov. Ampak imamo v Orangeu tudi razširitev za tekst, tako da so na voljo tudi orodja za analizo besedil. Kakšnih 3D vizualizacij kulturne dediščine Orange ravno ne podpira, ampak če pa ima nekdo neka besedila, jih lahko uvozi v program in naredi kakšno analizo. Jaz ga veliko uporabljam, tudi pri svojem raziskovalnem delu.
Pripiši svoje mnenje
Za objavo komentarja se morate prijaviti oz. najprej registrirati.