Sistemi vještačke inteligencije (umjetna inteligencija, artificial intelligence, AI) sada gotovo mogu dostići – i ponekad čak i prevazići – ljudsku sposobnost u zadacima kao što su razumijevanje čitanja, klasifikacija slika i matematika.
“Brzina napretka je iznenađujuće velika“, kaže društveni naučnik Nestor Maslej, glavni urednik godišnjeg izvještaja AI indeksa koji radi na Stanford univerzitetu. Izvještaj poziva na nove standarde za procjenu sposobnosti algoritama i ističe potrebu za konsenzusom o tome kakvi bi etički modeli vještačke inteligencije trebali biti.
Godišnji AI Indeks Stanforda, prvi put objavljen 2017. godine, a izdaje ga skupina akademskih i industrijskih stručnjaka kako bi ocijenili tehničke sposobnosti, troškove, etiku u ovom području, s ciljem informisanja istraživača, donositelja politika i javnosti. Izvještaj za ovu godinu, koji je dugačak više od 400 stranica i editovan te lektorisan pomoću alata AI, bilježi oštro povećanje regulacije vezane uz AI u Sjedinjenim Američkim Državama. No, nedostatak standardiziranih ocjena za odgovornu upotrebu AI-a otežava poređenje sistema u pogledu rizika koje predstavljaju.
Da li ovo, što AI sistemi mogu prevazići ljude u razumijevanju teksta, klasifikaciji slika i drugim zadacima – znači kako AI postaju pametniji, a ljudi gluplji? PISA testovi pokazu nedovoljnu funkcionalnu pismenost učenika, nedovoljnu sposobnost razumijevanja pročitanog teksta, nedovoljnu matematičku i naučnu pismenost, a u svijetu se razvijaju AI sistemi koji su sad već premašili ljude.
We’re gonna need a bigger boat, eto šta to znači.
A taj veći brod, prema spomenutom izvještaju, jesu nove metode ocjenjivanja umjetne inteligencije, kao što su procjene njihove izvedbe na kompleksnim zadacima poput apstrakcije i zaključivanja. Metode procjenjivanja vještačke inteligencije sve brže zastarjevaju i potrebno je označavati neke nove pragove. Svaka referentna tačka koja se izmjeri zastarijeva vrlo brzo, u roku godinu-dvije dana.
Evo primjera: jedan od najnovijih testova je Benchmark za pitanja i odgovore diplomske razine, otporan na Google (Graduate-Level Google-Proof Q&A Benchmark – GPQA), razvijen prošle godine od strane tima koji uključuje istraživača mašinskog učenja Davida Reina na Univerzitetu New York.
GPQA, sastavljen od više od 400 pitanja s višestrukim izborima, je zahtjevan: doktorandi bi mogli tačno odgovoriti na pitanja u svom području 65% vremena. Isti doktorandi, kad bi pokušali odgovoriti na pitanja izvan svog područja, postigli bi samo 34%, iako su imali pristup internetu u toku testa (slučajnim odabirom odgovora rezultirao bi ocjenom od 25%). Prošle godine, AI sistemi postigli su rezultat od oko 30–40%. Ove godine je Claude 3 – najnoviji chatbot AI kompanije Anthropic, sa sjedištem u postigao rezultat od otprilike 60%, premašivši ljude za koplje, što bi se reklo.