ChatGPT in globalni kapitalizem
kolumna
Martin Justin
Zadnjih nekaj tednov se je bilo težko izogniti novicam o ChatGPT-ju, spletnem klepetalnem botu, ki zna na željo človeških uporabnikov generirati zgodbe, poezijo, računalniško kodo, urejati že napisan tekst, odgovarjati na matematična vprašanja, predlagati knjige in filme in še mnogo drugega. In to počne presenetljivo dobro. No, kdaj si rad kaj izmisli in na matematična vprašanja ne odgovori vedno najbolje, piše pa domnevno tako prepričljive pesmi, da je neki oboževalec mislil, da lahko nadomesti Nicka Cava. Ki nad tem razumljivo ni bil najbolj navdušen.
Tehnologij, ki so sposobne uspešno in samostojno izvajati zahtevna opravila, kot je generiranje teksta, slik in zvoka, je vedno več. Dobrega pol leta tega je OpenAI, podjetje, ki je naredilo tudi ChatGPT, na primer presenetilo z modelom DALL-E 2, ki zna na podlagi teksta generirati slike, nastajajo pa tudi zelo prepričljivi modeli za generiranje človeških glasov in inštrumentalne glasbe. Ta tehnologija je uspešna tudi na drugih področjih. Leta 2016 je Alphabetov model AlphaGO na primer premagal enega najboljših igralcev goja, različni modeli strojnega učenja pa imajo vedno večjo vlogo tudi v znanosti, recimo pri odkrivanju možnih beljakovinskih struktur ali dekodiranju delovanja populacij nevronov.
V javnosti obstaja cel kup bolj ali manj zmedenih idej o naravi in delovanju teh tehnologij. Nekako se zdi, da te tehnologije – da bo laže, jih bom od tu naprej imenoval modeli strojnega učenja – ustvarjajo nekaj iz nič. Oziroma natančneje: vsi se nekako megleno zavedamo, da so za njihovo uspešno delovanje potrebne »ogromne količine podatkov«, na katerih se ti modeli »učijo«, dokler niso sposobni samostojno izvajati nekega opravila. Podrobnosti tega procesa pa so nekako zavite v oblak skrivnosti. To, kako se modeli »učijo«, je sicer res precej skrivnostno in stvar strokovnjakov in strokovnjakinj, ki se ukvarjajo s strojnim učenjem. Ni pa treba, da enako velja za podatke. In načine, kako so ti pridobljeni.
Čeprav se ob študiju primarno ukvarjam s pisanjem kritik, sem na različnih točkah opravljal tudi druga študentska dela. Zadnja tri leta tako sodelujem tudi pri vrsti projektov, kjer večinoma opravljam neko verzijo iste osnovne naloge. Dobim Google Spreadsheet tabelo s podatki, nanizanimi v vrstice, ki jo moram nato nekako urediti, običajno dopisati neke dodatne informacije. Lahko gre za članke iz dnevnega časopisja, razbite na posamezne besede, ki jim je treba določiti osnovno obliko, besedno vrsto in lastnosti. »Z zakonom naj bi ustanovili takšno neodvisno institucijo, ki bo dajala mnenja in obravnavala pritožbe.« Z – predlog, orodnik; zakon – samostalnik, obče ime, moški spol, ednina, orodnik; naj – členek; biti – glagol, pomožni, pogojni … In tako dalje. Lahko gre za pare besed, kjer je treba določiti, ali gre za protipomenki ali ne. Aktiv – pasiv? Ja. Dopoldne – popoldanski? Ne zares. Krivulja – premica? Mogoče? In tako dalje.
Tako nekako izgleda označevanje velikih baz podatkov, ki so nujno potrebne za učenje modelov strojnega učenja. Sam sem sodeloval pri označevanju jezikovnih korpusov, v resnici pa precej podobno izgleda tudi priprava baz slikovnih, zvočnih in drugih za modele uporabnih podatkov. Prav tako, kot sem v stavkih označeval glagole, samostalnike in predloge, bi lahko na fotografijah označeval mačke, semaforje in smetnjake. Takšni podatki, ki jih najprej pregledajo in uredijo ljudje, nato igrajo ključno vlogo pri razvoju modelov. Eden od glavnih pristopov k strojnemu učenju – t. i. nadzorovano učenje – namreč potrebuje urejene podatke, ki v procesu »učenja« modela rabijo kot nekakšen zgled, na podlagi katerega model vrednoti svoje odgovore in na podlagi tega posodablja svoje delovanje. Poleg tega je pri nalogah, kot je na primer klasifikacija fotografij ali prepoznavanje objektov na njih, pomembno, da obstajajo velike baze že urejenih podatkov, s pomočjo katerih lahko nato raziskovalci ocenijo uspešnost naučenih modelov. Tako strukturirani podatki sicer niso potrebni za razvoj vseh modelov – drugi glavni pristop k učenju modelov, s katerim je bil med drugim naučen tudi ChatGPT, je namreč nenadzorovano učenje –, a te kljub temu še vedno igrajo zelo pomembno vlogo. Sploh v znanosti, kjer imamo opravka s kompleksnejšimi podatki, kot so recimo beljakovinske strukture.
Človeško znanje in delo imata tako ključno vlogo ne samo pri razvoju modelov, ampak tudi pri oblikovanju podatkov, na katerih se ti modeli učijo. Tu pa naletimo na problem. To delo namreč v večini primerov opravljajo slabo plačani prekarni delavci in delavke. Tudi sam sem bil relativno slabo plačan in zaposlen prek študentske napotnice, torej prekarno, a se ne bi posebej pritoževal, saj sem na ta način dobil druge bolj zanimive in bolje plačane priložnosti. V nasprotju s tem pa velike mednarodne baze podatkov pogosto označujejo delavci in delavke, ki so nanovačeni prek spletnih platform in plačani glede na število opravljenih nalog. ImageNet, bazo 3,2 milijona označenih fotografij, ki je dolgo veljala za standard merjenja natančnosti modelov računalniškega vida, so na primer označili delavci in delavke, nanovačeni prek platforme Amazon Mechanical Turk, ki obljublja »globalno delavno silo, ki je na voljo na zahtevo, 24 ur na dan, 7 dni na teden«.
Platformno delo verjetno ni slabo samo po sebi, je pa skoraj vedno slabo plačano in skoraj nikoli ne ponuja zaščite in varnosti redne zaposlitve. Z drugimi besedami, skoraj vedno je izkoriščevalsko. Podobno kot moderiranje objav na socialnih omrežjih, označevanje podatkovnih baz tako predstavlja nepogrešljivo, a nevidno delo, ki ga velike korporacije, tehnološki start-upi in univerze pogosto preložijo na ranljive in slabo plačane tujce. Zato se mi zdi, da problem z modeli strojnega učenja, kot je ChatGPT, ni v tem, da predstavljajo »grotesken posmeh temu, kaj pomeni biti človek« ali karkoli je že zmotilo Nicka Cava. Nasprotno, zdijo se mi neskončno fascinantni in izjemno uporabni (prosite na primer ChatGPT, naj vam napiše kakšen mail, s katerim že dolgo odlašate). Problematično se mi zdi, da vsi, ki sodelujejo pri njihovem razvoju, za svoje delo niso pravično prepoznani in plačani.
Objavo je omogočila Javna agencija za knjigo RS
Pripiši svoje mnenje
Za objavo komentarja se morate prijaviti oz. najprej registrirati.