Prošlo je skoro dve godine otkako je izvršni direktor Majkrosofta, Satja Nadela, predvideo da će veštačka inteligencija zameniti rad zasnovan na znanju – poslove „belih okovratnika“ koje obavljaju advokati, investicioni bankari, bibliotekari, računovođe, IT stručnjaci i drugi.
Ali uprkos ogromnom napretku koji su postigli modeli fondacija, promena u radu zasnovanom na znanju je sporo stizala. Modeli su savladali detaljna istraživanja i agentsko planiranje, ali iz nekog razloga, većina poslova „belih okovratnika“ je ostala relativno nepromenjena.
To je jedna od najvećih misterija u veštačkoj inteligenciji – i zahvaljujući novom istraživanju giganta za podatke o obuci Merkor, konačno dobijamo neke odgovore.
Novo istraživanje ispituje kako vodeći modeli veštačke inteligencije izvode stvarne zadatke „belih okovratnika“, iz konsaltinga, investicionog bankarstva i prava. Rezultat je novi benčmark pod nazivom APEX-Agents – i do sada, svaka laboratorija za veštačku inteligenciju dobija neuspešnu ocenu. Suočeni sa upitima pravih profesionalaca, čak su se i najbolji modeli mučili da tačno odgovore na više od četvrtine pitanja. U velikoj većini slučajeva, model se vraćao sa pogrešnim odgovorom ili bez ikakvog odgovora.
Prema rečima izvršnog direktora kompanije Merkor, Brendana Fudija, koji je radio na ovom radu, najveća prepreka modela bila je praćenje informacija u više domena — nešto što je sastavni deo većine rada sa znanjem koji obavljaju ljudi.
„Jedna od velikih promena u ovom benčmarku je to što smo izgradili celokupno okruženje, po uzoru na stvarne profesionalne usluge“, rekao je Fudi za TechCrunch. „Način na koji obavljamo svoj posao nije tako što nam jedna osoba daje sav kontekst na jednom mestu. U stvarnom životu, radite preko Slack-a i Google Drive-a i svih ovih drugih alata.“ Za mnoge agentske AI modele, ta vrsta višedomenskog rezonovanja je i dalje pogodak ili promašaj.
Snimak ekrana
Svi scenariji su izvučeni od stvarnih profesionalaca na Merkorovom stručnom tržištu, koji su postavili upite i standard za uspešan odgovor. Pregled pitanja, koja su javno objavljena na Hugging Face-u, daje osećaj koliko složeni zadaci mogu biti.
Jedno pitanje u odeljku „Zakon“ glasi:
Tokom prvih 48 minuta prekida proizvodnje u EU, inženjerski tim kompanije Nortstar je izvezao jedan ili dva paketa dnevnika događaja proizvodnje u EU koji sadrže lične podatke američkom dobavljaču analitike… Prema sopstvenim politikama kompanije Nortstar, može li razumno tretirati jedan ili dva izvoza dnevnika kao u skladu sa Članom 49?
Tačan odgovor je da, ali da bi se to postiglo, potrebna je detaljna procena sopstvenih politika kompanije, kao i relevantnih zakona EU o privatnosti.
To bi moglo zbuniti čak i dobro informisanog čoveka, ali istraživači su pokušavali da modeliraju rad koji obavljaju profesionalci u ovoj oblasti. Ako magistar prava može pouzdano da odgovori na ova pitanja, mogao bi efikasno da zameni mnoge advokate koji danas rade. „Mislim da je ovo verovatno najvažnija tema u ekonomiji“, rekao je Fudi za TechCrunch. „Referentna vrednost u velikoj meri odražava stvarni posao koji ovi ljudi rade.“
OpenAI je takođe pokušao da izmeri profesionalne veštine svojim GDPDval benčmarkom — ali APEX-Agents test se razlikuje na važne načine. Dok GDPval testira opšte znanje u širokom spektru profesija, APEX-Agents benčmark meri sposobnost sistema da obavlja kontinuirane zadatke u uskom skupu visoko vrednih profesija. Rezultat je teži za modele, ali je takođe više povezan sa tim da li se ovi poslovi mogu automatizovati.
Iako se nijedan od modela nije pokazao spremnim da preuzme ulogu investicionih bankara, neki su bili očigledno bliži cilju. Gemini 3 Flash je postigao najbolje rezultate u grupi sa 24% tačnosti u jednom pokušaju, a odmah za njim je sledio GPT-5.2 sa 23%. Ispod toga, Opus 4.5, Gemini 3 Pro i GPT-5 su svi postigli otprilike 18%.
Iako početni rezultati nisu dovoljni, oblast veštačke inteligencije ima istoriju probijanja kroz izazovne benčmarkove. Sada kada je APEX-Agents test javan, to je otvoreni izazov za laboratorije veštačke inteligencije koje veruju da mogu bolje – nešto što Fudi u potpunosti očekuje u narednim mesecima.
„Poboljšava se veoma brzo“, rekao je za TechCrunch. „Trenutno je fer reći da je to kao da pripravnik uradi nešto tačno u četvrtini slučajeva, ali prošle godine je pripravnik uradio to tačno u pet ili deset procenata slučajeva. Takvo poboljšanje iz godine u godinu može imati veoma brz uticaj.“
