LUD Literatura

Digitalne metode omogočajo razpoznavanje vzorcev, ki s prostim očesom niso vidni

Pogovor z Ivano Zajc o digitalni humanistiki v literaturi

Martin Justin

Na petem dogodku v ciklu Umetna inteligenca v kulturi smo se pogovarjali z Ivano Zajc, docentko na Fakulteti za humanistiko Univerze v Novi Gorici in raziskovalko na Raziskovalnem centru za humanistiko Univerze v Novi Gorici. Pogovarjali smo se o uporabi orodij digitalne humanistike za raziskovanje književnosti, o konceptu oddaljenega branja, uporabi metod, kot sta modeliranje tem in analiza omrežij, za raziskovanje književnosti ter o kritični digitalni humanistiki.

Za začetek: kaj je digitalna humanistika, kako se je ta razvijala in kaj lahko doprinese k raziskovanju književnosti?

Digitalna humanistika pomeni stik med humanistiko in informacijsko tehnologijo. Gre za interdisciplinarne raziskave, ki vključujejo tudi interdisciplinarne skupine raziskovalcev, videla sem na primer predstavitev projekta, kjer so z literarnimi teoretiki sodelovali celo biologi, saj so delali simulacije modelov, ki so bili zelo koristni za razumevanje razvoja literarnih vrst in zvrsti. Digitalna humanistika v širšem smislu pomeni humanistiko, ki raziskuje človeka, literaturo, kulturo, zgodovino, umetnost in etiko ter druge pomembne teme z digitalnimi metodami. V resnici z digitalnimi metodami odgovarja na vprašanja, ki so tradicionalno humanistična. Po drugi strani pa digitalnemu svetu prinaša humanistične teme, kar je zelo pomembno, predvsem denimo etične vidike. Prinaša refleksijo tega, kaj se sploh dogaja na področju informacijske tehnologije, pa tudi kritiko.

Na področju literarnih raziskav prinašajo digitalne metode pogled od daleč, omogočajo razpoznavanje vzorcev, ki s prostim očesom niso vidni. Bistvo je, da na ta način književnost bolje in drugače razumemo, lahko odgovarjamo na nova, prej neraziskana vprašanja in hipoteze. In to je tudi moja motivacija: spoznavati in razvijati nova orodja, ki nam pomagajo književnost razumeti drugače. Hkrati pa je ta orodja vedno treba kombinirati s »tradicionalnimi«, ustaljenimi metodami literarne vede, ki temeljijo na natančnem branju literarnih besedil.

Zgodovina digitalne humanistike je seveda obsežno poglavje, ki ga na tem mestu ne morem natančno povzeti, lahko pa omenim njene začetke. Načela, ki se uporabljajo v digitalni humanistiki, so bila znana že pred razvojem računalniške tehnologije. Odmeven je bil recimo Roberto Bussa z raziskavo opusa Tomaža Akvinskega. Bussa je zbral 169 besedil, pripisanih Akvinskemu, in se vprašal, ali je vsa besedila tudi zares napisal on. Zavedal se je tega, da lahko slog avtorja statistično določimo glede na to, kako posameznik uporablja besede. To je avtorski prstni odtis, ki ga vsak od nas pušča v besedilih: če bi jaz napisala neko besedilo, bi bilo drugačno od teksta, ki ga napišete vi, in to je merljivo. Predstavljamo si lahko, kakšen projekt je bil to. Bussa je vzel 10 milijonov besed, potreboval je 34 let in seveda finančno podporo IBM-a, da je analiziral pojavljanje teh besed v besedilih Akvinskega. Rezultat tega njegovega življenjskega dela je bil ugotovitev, da okoli 60 besedil, ki so bila pripisana Akvinskemu, v resnici ni njegovih.

To bi bilo danes možno narediti v nekaj sekundah, kar je tudi bistvo odgovora na vprašanje, kako nam lahko digitalne metode pomagajo v literarni vedi: takšne raziskave, kot je bila Bussova, lahko danes opravljamo mnogo hitreje. Sicer pa se strinjam s tistimi, ki menijo, da bo izraz »digitalna« v digitalni humanistiki kmalu zvenel odveč, ker bo jasno, da je humanistika tudi digitalna in da tega ni treba posebej poudarjati. Del zgodovine, včasih pa tudi sedanjosti, je tudi negativni prizvok, ki ga utegne imeti digitalna humanistika v okviru literarne vede, kot da se zaradi tega prelamlja z ostalimi, ustaljenimi metodami, ki so prav tako dragocene. Raziskovalec s Poljske, pri katerem sem se učila računalniške stilometrije, je na primer nosil majico z napisom »Bad humanist«, s katero je opozarjal na te kritike. A ta »razkol« je verjetno že stvar zgodovine in preteklosti, jaz tega ne čutim in mislim, da smo lahko dovolj odprti za metodološki sinkretizem, da torej vsi raziskujemo v različne smeri in sodelujemo.

Eden najbolj vplivnih konceptov, ki literarno vedo povezujejo z digitalno humanistiko, je verjetno koncept »oddaljenega branja«, ki ste ga omenili prej. Za kaj gre?

Ob oddaljenem branju, izrazu, ki ga je oblikoval Franco Moretti, uporabljamo tudi druge izraze, recimo makroanaliza ali pa algoritemska kritika. Gre za kvantitativne metode, ki so sploh v slovenskem prostoru za literaturo možne zato, ker je bilo pred tem opravljeno veliko delo digitalizacije slovenske literature. Naj omenim Mirana Hladnika, ki si s sodelavci že dolgo prizadeva za pomembno digitalizacijo slovenske književnosti in skrbi za obsežne zbirke besedil na strani Wikivir. Slovenska Narodna in univerzitetna knjižnica ustvarja izjemen portal dLib.si, ki vsebuje digitalizirano gradivo. Raziskovalka Lucija Mandič je na primer pred kratkim ustvarila korpus vse daljše slovenske proze iz obdobja 1836–1918. Tako da imamo pri nas dejansko odlično izhodišče za tovrstne raziskave, in sicer zaradi vseh teh dolgoletnih prizadevanj kolegov.

Oddaljeno branje zajame določen korpus literarnih besedil in z njegovo analizo poskuša odgovoriti na neko raziskovalno vprašanje. Izhaja iz Morettijeve ideje s preloma 20. v 21. stoletje, da je literarna zgodovina »klavnica literature«. Gre za predstavo, da na večino besedil, ki jih nihče ne bere in samo ležijo na policah, pozabimo, literarna zgodovina analizira le nekaj izbranih kanoniziranih tekstov, druga besedila pa predstavljajo tako imenovano »veliko neprebrano«. Naj poleg samih literarnih besedil izpostavim tudi ostale vire, recimo pisma, ki so bila pogosto pozabljena. Na Raziskovalnem centru za humanistiko Univerze v Novi Gorici poteka digitalizacija pisem iz preteklosti (trenutno jih je že več kot 2000), v zadnjem času so nas tudi raziskovalno zanimala pisma pisateljic, na katera je literarna zgodovina pred tem bolj ali manj pozabila. Pisma pisateljev so bila objavljena v zbranih delih, pisma avtoric pa pogosto zapostavljena. Na centru smo pisma prepisali iz arhivov in jih anotirali, tako da so zdaj dostopna v elektronski zbirki Pisma, kjer je mogoče brskati po pošiljatelju, prejemniku, najrazličnejših ključnih besedah itd.

Metode oddaljenega branja uporabljajo razne računalniške pristope, recimo štetje pogostosti določenega števila besed, besednih zvez v korpusu, pa tudi bolj kompleksne metode strojnega učenja za analizo korpusov besedil. Primerov je tukaj več, tudi v slovenskem prostoru se je zvrstilo že kar nekaj raziskav. Andrejka Žejn je na primer naredila raziskavo starejše slovenske literature z oddaljenim branjem, Lucija Mandič je v korpusu daljše proze odkrivala motivno-tematske povezave, sama pa sem denimo raziskovala stilne razvojne faze znotraj opusa Ivana Cankarja.

S temi metodami lahko ugotavljamo tudi, kakšen je literarni slog avtorja, in odkrivamo stvari, ki jih pri natančnem branju sicer spregledamo. Raziskava, ki je analizirala slog Ernesta Hemingwaya, je denimo pokazala, da je njegovo besedišče zelo skopo. Raziskovalci so preverili, koliko je v njegovih tekstih novih besed, koliko je besed, ki se nikoli ne ponavljajo oziroma se ponavljajo zgolj zelo redko, in koliko besed se pogosto pojavlja. Ugotovili so, da je avtor uporabljal zelo ozko besedišče. To bi lahko predvidevali tudi na podlagi natančnega branja njegovih del, kvantitativna metoda pa to ugotovitev podkrepi.

Če povzamem: ideja oddaljenega branja je, da poskušamo zajeti celoto, pogledamo neka bolj obskurna, kritiško pozabljena, mogoče tudi nekakovostna dela. Medtem ko natančno branje pogosto zajame kanonizirana besedila, posebej v okviru akademskega diskurza, in gradi določene interpretacije, teorije, oddaljeno branje izlušči podatke iz širšega korpusa in jih pripravi za interpretacijo. Interpretacija podatkov, ki izhaja iz znanja o literarni zgodovini in teoriji, je tudi tukaj še vedno bistvena. V obeh primerih je ključno, da besedila poznamo, da smo seznanjeni z literarno vedo in zgodovino, si zastavljamo vprašanja in nato interpretiramo.

Ko sem se ukvarjala z vprašanjem, kako bi oddaljeno branje predstavili v šolah – tu imamo namreč digitalne domorodce, ki jih to zanima –, sem na delavnici za profesorje in profesorice preizkušala brezplačno platformo Voyant Tools. Nanjo lahko naložite poljubno besedilo, in program bo izvedel preprosto oddaljeno branje. Pri Prešernovem »Sonetnem vencu«, ki smo ga preizkušali, se je na primer pokazalo, da najpogostejše besede dejansko potrjujejo tezo, da ima venec tri osrednje teme: poetološko, ljubezensko in nacionalno. Izkaže se tudi, da gre, ko besedilo pogledaš od daleč, za svetlo pesem, saj je uporabljenih veliko pozitivno obarvanih besed. Tovrstne metode razumem kot možnost za popestritev pouka in poglobitev razumevanja književnosti, nikakor pa ne kot nadomestilo za interpretativno branje.

Se morda spomnite kakšnega primera, ko so ugotovitve oddaljenega branja prelomile s predhodno interpretativno tradicijo?

Tak primer je morda raziskava, ki sva jo izvedli z Lucijo Mandič na romanu Rokovnjači, ki ga je začel pisati Josip Jurčič, po njegovi smrti pa ga je dokončal Janko Kersnik. Slednji naj bi bil pod vplivom Jurčičevega sloga oziroma naj bi ga celo posnemal. To je zanimivo vprašanje za računalniško stilometrijo, in vprašali sva se, ali teza o posnemanju drži. Računalniški algoritem je z metodo »rolling stylometry« najprej na podlagi besedil v korpusu usvojil slog različnih avtorjev: Jurčiča, Kersnika, Tavčarja, Stritarja in Levstika. Na tej podlagi je potekala analiza Rokovnjačev, ki je razkrila razkorak med prvim in drugim delom z vidika sloga in zavrgla tezo o slogovni enotnosti besedila. Ena od motivacij digitalne humanistike v literaturi je torej, da preverja ustaljene teze literarne zgodovine in najde kaj nepričakovanega.

V učbeniku Digitalna humanistika in literatura, ki je izšel v soavtorstvu s Petrom Purgom, predstavite več računalniških metod, s katerimi si lahko pomagamo pri raziskovanju književnosti, od stilometrije do analize omrežij. Lahko na kratko predstavite te različne metode in kako so lahko uporabne za preučevanje književnosti? Lahko začnete s stilometrijo, ki ste jo že omenjali.

Stilometrija izhaja iz ugotovitev, da avtorji v besedilih puščajo svoj prstni odtis. Zanimivo je, da razpoznavnost avtorskega sloga ne izhaja iz polnopomenskih besed, ki jih uporabljamo, temveč iz detajlov, iz veznikov, mogoče uporabe glagola biti, torej iz nepolnopomenskih besed. Stilometrija temelji na statistični analizi pojavljanja najpogostejših besed v besedilih. Uporaba stilometrije sicer presega digitalno humanistko, obstaja na primer tudi forenzična stilometrija, ki denimo ugotavlja, ali je osumljenec napisal neki konkreten tekst. Ali pa razrešuje literarne skrivnosti. Stilometrična analiza je recimo nakazala, da naj bi bila anonimna italijanska pisateljica Elena Ferrante v resnici italijanski pisatelj Domenico Starnone. Na primeru 150 sodobnih romanov se je namreč pokazalo, da so si njuni romani stilsko izjemno podobni. Še en primer je pisateljica J. K. Rowling, ki je pred leti pod psevdonimom Robert Galbraith na skrivaj objavila detektivski roman, a so jo potem hitro izsledili prav z uporabo računalniške stilometrije. Tako da velja tudi, da je slog, ta avtorski signal, kot mu rečemo, močnejši od žanrskega ali recimo spolnega signala.

Težava ne le stilometrije, ampak tudi drugih metod digitalne humanistike, pa je dostop do besedil. Sodobna literarna dela so lahko zaščitena z avtorskimi pravicami, da jih analiziramo, pa jih moramo pridobiti v digitalizirani obliki. Slovenščina je tu res izjema, saj je digitalizacija starejših besedil, kot sem že omenila, obsežna. V manjših jezikih je redko tako, veliki, na primer angleščina, pa imajo zelo obsežne elektronske korpuse in infrastrukturo. Hkrati je ta jezik zelo nepregiben in je tako mnogo bolj pripraven za računalniško analizo. Zato je večina raziskav, tudi stilometričnih, izvedenih na starejši literaturi v angleščini.

Naj omenim še analizo omrežij: tudi tu gre tudi za neke vrste pogled »od daleč«, za analizo odnosov, povezav znotraj književnosti. Osebno se mi zdijo najbolj zanimive analize omrežij likov v literarnih delih. Gre za ugotavljanje, kateri liki so v resnici povezani, kar, ko neki tekst beremo linearno, v resnici teže prepoznamo. Ko preverjamo, kateri liki se v dramah pojavljajo skupaj ali kateri liki govorijo med sabo, in naredimo neko statistično analizo teh vidikov, se nam jasneje izriše, kako je drama sestavljena. Za drame Williama Shakespeara je na primer zelo značilno, da so sestavljene iz dveh delov, torej dveh skupin, med katerima se ustvarja napetost. Romeo in Julija je tipičen primer: v drami se izrišeta dve mreži, Romeo in Julija pa sta med seboj povezana. Se pa na primer izkaže tudi, da Julija največ ne govori z Romeom, ampak z dojiljo, čeprav tega lika na primer obnova drame na slovenski Wikipediji sploh ne omeni. S tega vidika je morda zanimiva tudi analiza Igre prestolov Georgea R. R. Martina, saj v vseh knjigah zbirke nastopa okoli 2000 likov. Analize omrežij so pokazale, kateri liki so med seboj najbolj povezani – to sta Tyrion in Jon Snow –, vidimo pa lahko tudi, kateri liki največ nastopajo, največ govorijo. Med 2000 liki je samo 15 osrednjih, vsak od njih pa ima 150 povezav. To je zanimivo, saj imamo tudi ljudje v resničnem življenju nekje do 150 poznanstev, torej je delo zelo spretno sestavljeno, saj posnema socialno strukturo našega vsakdana.

Še en primer uporabe analize omrežij je na primer področje medsebojnih literarnih vplivov. Raziskave kažejo, da so literarni vplivi precej pluralni, vidno je, da vpliv ne gre od enega avtorja k drugim, ampak je ta pojav precej manj hierarhičen.

Omenila bi tudi analize čustev, ki se mi zdijo še posebej zanimive. Čustva so ključen del književnosti, čeprav jih je literarna veda v preteklosti neredko zapostavila, danes pa prihajajo tudi v ospredje digitalnih raziskav, in sicer lahko analiziramo emotivne vidike književnosti, na primer čustvene loke pripovedi. Na primer, že omenjeno delo Romeo in Julija se, kot je pokazala raziskava čustvenega loka zgodbe, začne z negativnimi čustvi, ki se hitro prelevijo v pozitivna, nato pa ponovno iztečejo v tragičen konec. Zanimiva je tudi obsežna analiza, ki je zajela približno 1300 zgodb in pokazala, da se v njih izrisuje šest različnih čustvenih lokov pripovedi. Ti so: vzpon iz revščine k bogastvu, padec od bogastva v revščino, posameznik, ki se dvigne (torej naprej padec, potem vzpon), Ikarjev motiv vzpona in padca, motiv Pepelke, ki pomeni vzpon, padec in potem ponovno vzpon, in naposled motiv Ojdipa, ki z vidika čustvene dinamike prinaša padec, vzpon in potem ponovno padec.

Še eno področje raziskovanja, ki je zelo zanimivo tudi z vidika čustev, je spoj med geografskimi raziskavami in literaturo. Literarna geografija in digitalne metode se odlično povezujejo. Analiza s Stanfordske univerze je preverjala, kako so čustva v književnosti zaznamovala različna področja Londona. V širokem naboru romanov je preverjala, kako liki v romanih ali pa pripovedovalci doživljajo posamezne dele britanske prestolnice. Na podlagi tega so oblikovali »čustveni« zemljevid mesta, kar predstavlja tudi nov odgovor na vprašanje, kako misliti čustva v literaturi. To je še en primer, ki kaže, kako je mogoče presegati ustaljena razmišljanja, ustaljene »poti« v raziskavah literature.

Sicer pa je pristopov v digitalni humanistiki zares mnogo, od obdelave naravnih jezikov, modeliranja tem, zgodovinskih raziskav, različnih analiz pripovedi in pripovednih lokov do na primer specifičnih raziskav, ki preverjajo, ali vsi zlikovci v literaturi govorijo enako, ali so si detektivi v različnih romanih podobni itd. V digitalno humanistiko uvrščamo tudi pripravo digitalnih knjižnih zbirk in digitalnih kritičnih izdaj književnih klasikov, ki omogočajo, da so dostopni vsem. Prost dostop je v digitalni humanistiki pomembna tema.

Posebno poglavje v učbeniku namenite tudi računalniškim analizam in vprašanjem spola. Lahko predstavite kakšen primer, kako nam lahko računalniški pristopi pomagajo pri razreševanju tovrstnih vprašanj?

Z računalniško stilometrijo lahko ugotovimo, da spolni ni med najbolj očitnimi signali, ki razlikujejo literarna dela, ključen pa je denimo avtorski signal, saj različni ljudje pišejo različno. Seveda pa lahko raziskujemo tudi druga vprašanja, povezana s spolom v literaturi. Naj omenim študijo Matthewa Jockersa in Gabi Kiriloff, ki sta preučevala prikazovanje moških in ženskih likov v romanopisju 19. stoletja. Torej govorimo o času, ki je bil drugačen od sodobnosti, ko so prevladovale neke družbene spolne norme. Avtor in avtorica sta preverjala več kot 3300 besedil in analizirala, kaj v književnih delih delajo moški in kaj ženski liki. Raziskava je pokazala, da so moški in ženske prikazani precej različno, v skladu s takratnimi družbenimi normami, in sicer so moški glagoli na primer prikazovali aktivnost, dejavnost, gibanje, ženski pa so v večji meri opisovali čustva in pasivnost. Raziskave sodobne književnosti pa seveda takih ločnic ne kažejo.

Ena od stvari, ki jih prav tako predstavite v učbeniku, je kritična digitalna humanistika. Za kaj gre tukaj?

Ja, v resnici gre za vprašanje družbene pravičnosti tako v digitalni humanistiki kakor tudi v informacijski tehnologiji. Izhaja iz predpostavke, da sodobni mediji svet soustvarjajo in velikokrat podpirajo določene stereotipne podobe. Ta pristranost digitalnega okolja je v digitalni humanistiki postavljena pod drobnogled. Recimo zapostavljeno mesto kvir oseb, etični in rasni predsodki ali pa abilizem. Kritična digitalna humanistika torej naslavlja vprašanja rase, razreda, spola, spolnosti, hendikepiranosti idr. v digitalnem okolju. Poskuša podariti, da odločitve o tem, kakšno je digitalno okolje, niso a priori nevtralne. Izpostavlja, da se moramo spraševati o tem, kdo je zasnoval tehnologijo, zakaj jo je tako zasnoval, kakšne so možnosti, ki nam jih tehnologija ponuja, katere nezavedne predpostavke se pri tem kažejo. Kaj nam tehnologija omogoča in česa nam ne? In kdo se je tako odločil? To so vprašanja, ki jih kritična digitalna humanistika raziskuje na različnih področjih, od videoiger do recimo Wikipedije. Med drugim se ukvarja tudi z jezikom: na svetu obstaja več kot 7000 jezikov, vendar je 40 odstotkov ljudi govorcev zgolj osmih najpogostejših jezikov, le pet odstotkov jezikov na svetu pa je digitaliziranih. Že to, da neki jezik živi v digitalnem svetu, je torej določen privilegij.

O avtorju. Martin Justin (1998) je mladi raziskovalec in doktorski študent filozofije. Kot literarni kritik ter esejist sodeluje predvsem z revijo Literatura, od julija 2023 pa tudi ureja ta spletni portal. Seznam njegovih objav lahko najdete na njegovi spletni strani.

Pogovor o tekstu

Pripiši svoje mnenje

Sorodni prispevki

Kdor bere, je udeležen!

Prijava na Literaturin obveščevalnik

* obvezno polje

Za obveščanje uporabljamo storitev Mailchimp, ki bo tvoje podatke uporabljala skladno s pravili. Vedno si lahko premisliš. Brez nadaljnjega. Navodila za odjavo ali spremembo nastavitev so na dnu vsakega elektronskega dopisa. Tvoje podatke in odločitve bomo spoštovali. Spodaj lahko potrdiš, da se s tem strinjaš.