Sistemi vještačke inteligencije (umjetna inteligencija, artificial intelligence, AI) sada gotovo mogu dostići – i ponekad čak i prevazići – ljudsku sposobnost u zadacima kao što su razumijevanje čitanja, klasifikacija slika i matematika.

Brzina napretka je iznenađujuće velika“, kaže društveni naučnik Nestor Maslej, glavni urednik godišnjeg izvještaja AI indeksa koji radi na Stanford univerzitetu. Izvještaj poziva na nove standarde za procjenu sposobnosti algoritama i ističe potrebu za konsenzusom o tome kakvi bi etički modeli vještačke inteligencije trebali biti.

Godišnji AI Indeks Stanforda, prvi put objavljen 2017. godine, a izdaje ga skupina akademskih i industrijskih stručnjaka kako bi ocijenili tehničke sposobnosti, troškove, etiku u ovom području, s ciljem informisanja istraživača, donositelja politika i javnosti. Izvještaj za ovu godinu, koji je dugačak više od 400 stranica i editovan te lektorisan pomoću alata AI, bilježi oštro povećanje regulacije vezane uz AI u Sjedinjenim Američkim Državama. No, nedostatak standardiziranih ocjena za odgovornu upotrebu AI-a otežava poređenje sistema u pogledu rizika koje predstavljaju.

Da li ovo, što AI sistemi mogu prevazići ljude u razumijevanju teksta, klasifikaciji slika i drugim zadacima –  znači kako AI postaju pametniji, a ljudi gluplji? PISA testovi pokazu nedovoljnu funkcionalnu pismenost učenika, nedovoljnu sposobnost razumijevanja pročitanog teksta, nedovoljnu matematičku i naučnu pismenost, a u svijetu se razvijaju AI sistemi koji su sad već premašili ljude.

We’re gonna need a bigger boat, eto šta to znači.

A taj veći brod, prema spomenutom izvještaju, jesu nove metode ocjenjivanja umjetne inteligencije, kao što su procjene njihove izvedbe na kompleksnim zadacima poput apstrakcije i zaključivanja. Metode procjenjivanja vještačke inteligencije sve brže zastarjevaju  i potrebno je označavati neke nove pragove. Svaka referentna tačka koja se izmjeri zastarijeva vrlo brzo, u roku godinu-dvije dana.

Evo primjera: jedan od najnovijih testova je Benchmark za pitanja i odgovore diplomske razine, otporan na Google (Graduate-Level Google-Proof Q&A Benchmark – GPQA), razvijen prošle godine od strane tima koji uključuje istraživača mašinskog učenja Davida Reina na Univerzitetu New York.

GPQA, sastavljen od više od 400 pitanja s višestrukim izborima, je zahtjevan: doktorandi bi mogli tačno odgovoriti na pitanja u svom području 65% vremena. Isti doktorandi, kad bi pokušali odgovoriti na pitanja izvan svog područja, postigli bi samo 34%, iako su imali pristup internetu u toku testa (slučajnim odabirom odgovora rezultirao bi ocjenom od 25%). Prošle godine, AI sistemi postigli su rezultat od oko 30–40%. Ove godine je Claude 3 – najnoviji chatbot AI kompanije Anthropic, sa sjedištem u postigao rezultat od otprilike 60%, premašivši ljude za koplje, što bi se reklo.

Međutim, svi ovi testovi mjere one stvari za koje je AI dobar i inače – baratanje s informacijama, matematičke i vizuelne sposobnosti AI, pa čak i njihovu sposobnost za moralno procjenjivanje, ali ne i one  stvari vezane za emocionalnu inteligenciju te sposobnost improvizacije, rada i zaključivanja u novim situacijama.
Na ovaj način, AI ispada bolji i sposobniji od ljudi, što dođe odlično za visokorizična investiranja i upumpavanje novca u startupove iz AI branše. Također, to napuhivanje sposobnosti AI dovodi i do širenja prekarnog rada. Danas se ovaj način rada bez stalnog zaposlenja, prihoda i socijalne zaštite vještački diže na prijestol kao “sloboda”, a u stvari se radi o robovanju često bez penzionog i zdravstvenog osiguranja.
Iako automatizacija može eliminisati određene poslove, isto tako može stvoriti potrebu za novim radnim mjestima koja podržavaju razvoj, implementaciju i održavanje AI sistema. Međutim, nova radna mjesta koja nastaju mogu biti nestabilna, privremena ili loše plaćena, što također može doprinijeti prekarnosti radne snage.
Vratimo se na problem – da li AI sistemi bolje čitaju i rade neke druge zadatke bolje od ljudi?
Još je 2018. bila vijest kako AI čita bolje od ljudi, također prema Stanford testu. Međutim AI sistemi su dobri tamo gdje su zadaci uski i specijalizirani, poput traženja određene riječi u tekstu, preračuna, targetiranja oglasa (i to djelimično jer često targetiraju pogrešnu publiku, očito), sinteza glasa (mada je to i dalje iritantno). AI sitemi mogu dati prijedloge naslova i podnaslova na osnovu “pročitanog”. Mogu brže od nas procesirati velike količine teksta. Ali, oni zapravo ne razumiju tekst. Nešto poput ljudi koji se hvale brzim čitanjem, ali ne mogu vam dati svoje misli i osjećaje vezane za pročitano, samo reprodukuju osnovni nivo značenja.
Do sada nijedna neuronska mreža ne može nadmašiti ljudske performanse. Ali čak i ako (ili kada) se to dogodi, znači li to da mašine stvarno mogu razumjeti jezik bolje nego prije? Ili to samo znači da je nauka postala bolja u podučavanju mašina i AI sistema testiranju? 
Napomena: naslovna slika je kreirana pomoću alata generativne umjetne inteligencije.