Veliki jezički modeli (Large language models – LLMs) kakvi su Claude, Perplexity, ChatGPT imaju jedan veliki problem, a to je pristu i vrsta podataka na kojima se treniraju. Oni su ograničeni i često na njih postoje autorska prava. No, AI kompanije su našle rješenje koje nema autorska prava – Reddit rasprave na teme.

Semrush je napravio analizu koja pokazuje kako je upravo Reddit najcitiraniji izvor informacija ovih modela. AI kompanije, pored skrapanja besplatnih podataka, u Redditu vide još jednu vrijednost – autentičan je (tu ljudski glas pobjeđuje AI, ima više stvarnog ljudskog glasa, to je izvor stvarnog ljudskog konteksta) te pruža nešto što bi teoretski trebali biti nepristani podaci – odnosno imaćete mišljenja i za i protiv neke stvari. A sa preko 100 000 tema, zapravo je malo vjerovatno da ima neka tema o kojoj se ne raspravlja na Reddit. Moguće je da se ne raspravlja o portalu Nauka govori.

Postove i komentare korisnici ocjenjuju glasanjem (upvote/downvote, kao na mnogim news portalima poput Klixa), i to bi teoretski značilo da kvalitetan sadržaj prirodno ispliva na vrh dok se loš sadržaj gubi. Postoji više od 100.000 aktivnih zajednica i pokrivaju gotovo svaku nišu koju možete zamisliti. Eh sad, ovo je teoretski, a u praksi to znači da ako ima te Reddit topic u kojem se peddlaju teorije zavjera o vakcinama, svaki komentar koji debunka i koristi naučne izvore da debunka neku neistinu, biće u toj zajednici označen downvote komentarima i obratno. To se dešavalo i stranicama na FB koje su korisnici loše ocjenjivali.

Drugim riječima, Reddit kao izvor informacija nije nepristran, nego upravo suprotno – pristran je do boli. On je toliko ljudski da reflektira sve ljudske mane. Garbage in – garbage out – ako u sistem unesete smeće, smeće vam se i vraća kao informacija.

Ovo znači da kreatori AI ne žele alate koji su zasnovani na provjerenim i provjerljivim činjenicama i objektivnim stvarima, nego žele alat koji će replicirati ljudsku svijest i kao takav, biće i jeste sklon greškama.

No, problem sa ovim je što sada postoji pritisak na marketiške kompanije da zatrpavaju Reddit svojim sadržajima. Zašto? Zato što ako nema rasprave na Redditu o njihovom proizvodu, onda ih neće obuhvatiti ni AI pretraga interneta. Zato vještački pokušavaju graditi taj AI SEO pumpanjem, odnosno shillanjem svog sadržaja na Reddit.

To u praksi znači da peddlaju neke botove ili stvarne ljude da zasiju Reddit spominjanjem njihovog proizvoda. Time enšitificiraju Reddit i zapravo čine da u njemu ima više botovskog glasa, što u konačnici može uništiti upravo ono zbog čega AI kompanija i pokušavaju koristiti Reddit u treniranju alata. Ovo umjetno podizanje vrijednosti ili shilling je dio većeg problema AI bubble u kojem se jednom alatu daje veća vrijednost i sposobnosti nego što ih ti alati zapravo imaju. I također je oblik astroturfanja kada se nešto želi prikazati kao originalno, grass-root, a ustvari se vještački napuhuje.