Problem sa veštačkom inteligencijom u igrama koji računari nikada nisu napravljeni da reše

Zašto se velike strateške igre opiru gruboj sili veštačke inteligencije

Šah je pao u ruke računara 1997. godine. Go, za koji se dugo smatralo da je van domašaja silicijuma, predao se 2016. godine. Pa ipak, Civilizacija, igra koja se pokreće u realnom vremenu na jednom laptopu, ostaje tvrdoglavo otporna na savladavanje veštačke inteligencije. To nije zato što je izazov teži u bilo kom apstraktnom smislu. To je zato što strateške igre poput Civilizacije funkcionišu na potpuno drugačijim principima od igara sa savršenim informacijama gde možete izračunati ishode.

U šahu ili Gou, osnovni problem je procena. Možete unapred gledati desetine poteza kroz stablo igre, izračunati koje terminalne pozicije favorizuju kog igrača i raditi unazad da biste identifikovali najbolji potez. Stablo igre raste eksponencijalno, ali to je vid rasta koji se može kontrolisati. Civilizacija ruši ovaj model. Igra se proteže kroz 500 poteza. Istovremeno upravljate vojnim snagama, kulturnim proizvodom, naučnim istraživanjima, ekonomskim resursima i diplomatskim odnosima. Postoje stotine održivih strategija, svaka interno koherentna, ali fundamentalno neuporediva sa ostalima. Kulturna pobeda i vojno osvajanje se ne mogu svesti na jedan rezultat koji vam omogućava da kažete „ovaj je 8% bolji“. To su različiti narativi o tome kakvu civilizaciju gradite.

Zato su tradicionalni pristupi veštačkoj inteligenciji imali problema. Minimaks pretraga zahteva pozicije koje se mogu proceniti. Monte Karlo pretraga stabla zahteva stabla igre koja se granaju upravljiv broj puta. Učenje sa pojačanjem zahteva jasne signale nagrade koji se generalizuju u svim državama. Civilizacija ne nudi ništa od ovoga pouzdano. Prostor mogućih igara je toliko veliki, a horizont toliko dugačak, da algoritmi dizajnirani za istraživanje i procenu grana nailaze na zid.

Ono što Civilizacija zapravo zahteva je nešto drugačije: održavanje dugoročne strateške koherentnosti. Ljudski igrač uspeva tako što formira narativ („Idem na kulturnu pobedu“), a zatim razmišlja unazad od tog cilja. Svaki politički izbor, svaka izgrađena jedinica, svaka diplomatska uvertira služi tom narativu. Ljudi ne koriste grubu silu stablo igre. Oni se obavezuju na strategiju i ostaju koherentni.
Uvid koji menja sve

Ovde se pojavljuje fundamentalno saznanje: Modeli velikih jezika su užasni u onome u čemu su računari dobri (izračunavanje, iscrpna pretraga, matematička optimizacija) i izuzetni upravo u onome što Civilizacija zahteva.

Materijali velikog jezika (LLM) su mehanizmi za uparivanje obrazaca obučeni na ogromnim količinama strateškog rezonovanja na prirodnom jeziku. Apsorbovali su hiljade članaka, knjiga i dokumenata o istoriji, ekonomiji, vojnoj strategiji i ljudskom donošenju odluka. Ne mogu pouzdano da reše kvadratnu jednačinu, ali se od njih traži da artikulišu strategiju u tri poteza koja balansira vojnu snagu sa kulturnim uticajem, i oni proizvode koherentno, razumljivo rezonovanje. Oni održavaju narativnu konzistentnost kroz stotine tokena na način na koji je ljudi održavaju kroz stotine poteza.

Ovo menja uobičajeni okvir „možemo li koristiti LLM-ove za igranje igara?“ Pitanje nije bilo da li su LLM-ovi dobri u igrama uprkos tome što su spori i skupi. Pitanje je da li specifične mogućnosti koje ih čine sporim i skupim zapravo rešavaju pravi problem za Civilizaciju.

Većina rada veštačke inteligencije na igrama fokusira se na taktičko izvršenje: koje jedinice treba da se kreću gde da bi se optimizovala pozicija, koji je pohlepni algoritam za raspodelu resursa, kako pronalazite lokalno optimalna poboljšanja? Ovo su teški problemi sa računskog stanovišta, ali zapravo nisu usko grlo u Civilizaciji. Ljudi mogu da napišu razumne pohlepne algoritme za kretanje jedinica. Usko grlo je u sloju iznad: odlučivanje šta pokušavate da postignete, održavanje koherentnosti tokom 500 poteza, merenje konkurentskih ciljeva kada nijedna metrika ne obuhvata sve njih.

Spoznaja koja je motivisala ovaj rad bila je jednostavna: šta ako koristimo LLM-ove za ono u čemu su zapravo dobri i sve ostalo delegiramo sistemima dizajniranim za te zadatke?
Izgradnja hibridne arhitekture

Arhitektura koja proizilazi iz ovog uvida deli rad između dva sloja. Gornji sloj, pokretan LLM-om, bavi se makrostrateškim rezonovanjem. Ovde LLM deluje: odlučujući da civilizacija treba da teži teritorijalnoj ekspanziji na zapadu, da se okrene ka kulturnom razvoju, da pregovara sa određenom susednom silom ili da raspodeli resurse ka naučnom prodoru. Ove odluke proizilaze iz rezonovanja na prirodnom jeziku o apstraktnim kompromisima i dugoročnim ciljevima.

Donji sloj se sastoji od specijalizovanih podsistema, najmanje algoritamske veštačke inteligencije, potencijalno proširene na učenje sa pojačanjem u budućem radu. Ovi sistemi primaju stratešku nameru od LLM-a i prevode je u konkretnu akciju. Kada LLM odluči da se „proširi na zapad“, taktički sloj utvrđuje koje se jedinice kreću gde, kojim redosledom, da bi se postigao taj cilj. Kada LLM alocira resurse ka nauci, taktički sloj generiše specifičan red za izgradnju gradova.

Ova podela ima tri neposredne prednosti. Prvo, omogućava LLM-u da radi na pravom nivou apstrakcije. LLM ne mora da generiše niz od 50 komandi za mikromenadžment. On rasuđuje o strategiji i prepušta detalje. Drugo, efikasan je. LLM-ovi su spori generatori tokena po token, ali su vam potrebni samo da proizvedu nekoliko odluka visokog nivoa po potezu. Algoritmi mogu da izvrše hiljade taktičkih odluka u sekundi. Treće, jeftin je. Jedan LLM poziv po potezu košta dramatično manje od pozivanja LLM-a stotine puta.

Granica apstrakcije je važna. LLM izdaje stratešku nameru na prirodnom jeziku, kao tekst koji opisuje šta želi da postigne. Ispod te granice, sistemi kojima je stalo do efikasnosti i brzine prevode tu nameru u akcije. Ovo nije hakovanje. To je principijelna podela rada: rasuđivanje tamo gde je teško, izvršenje tamo gde nije.

Ova arhitektura odražava širi obrazac koji se pojavljuje u istraživanju agentske veštačke inteligencije. Jezički modeli sve više služe kao slojevi rasuđivanja i planiranja pored specijalizovanih alata i podsistema. Rad na planiranju zasnovanom na LLM-u u robotici i autonomnim sistemima prati isti princip: jezički model rasuđuje o ciljevima i strategijama, podsistemi izvršavaju konkretne akcije. Vox Deorum primenjuje taj obrazac na domen koji deluje udaljeno od robotike, ali deli isti strukturni izazov: dugoročno rasuđivanje kombinovano sa izvršenjem u realnom vremenu.
Testiranje u velikim razmerama

Da li ova arhitektura zaista funkcioniše? Istraživači su se bavili ovim pitanjem pokretanjem 2.327 kompletnih igara, varirajući korišćeni LLM i upoređujući rezultate sa ugrađenom veštačkom inteligencijom Civilization V sa Vox Populi modom, dobro cenjenim poboljšanjem koje igru čini znatno težom za ljudske igrače.

Obim ove evaluacije je važan. Ovo nije dokaz koncepta sa deset igara. To je rigorozna empirijska studija koja omogućava da se pojave obrasci i da slučajnosti postanu vidljive. Kroz preko dve hiljade igara, istraživači bi mogli da se pitaju: da li LLM-ovi održavaju stratešku koherentnost tokom 500 poteza? Da li proizvode razumljive odluke? Kako se porede sa jakom osnovnom linijom? Koliki je stvarni trošak računanja?

Najosnovnije pitanje je da li bi LLM-ovi uopšte mogli da održe koherentnost tokom tako dugog horizonta. U teoriji, LLM-ovi ne bi trebalo da budu u stanju da „sete“ odluke donete pre 400 poteza ili da održe konzistentnu stratešku viziju toliko dugo. U praksi, mogli bi, pod uslovom da je zadatak strukturirao tako da im pomogne. Samo ovo je zanimljivo jer sugeriše da su LLM-ovi sposobniji za održivo razmišljanje nego što im se često pripisuje.

Što se tiče stope pobeda protiv Vox Populi, LLM-ovi su postigli takmičarsku igru bez potpune dominacije. Nisu bili očigledno superiorni, ali nisu bili ni očigledno inferiorni. Ovo je važno jer sugeriše da je pristup održiv, a da nije čarobni štapić. Sistem veštačke inteligencije koji igra takmičarski dok pokazuje interpretativno, ljudsko razmišljanje je vredniji od onog koji konstantno pobeđuje, ali proizvodi nerazumljive odluke.

Stilovi igre kao strateški potpisi

Ovde rezultati postaju iznenađujući na zanimljiviji način. Dva različita testirana LLM-a nisu se samo nasumično razlikovala. Razvili su koherentne, divergentne strategije koje otkrivaju nešto o tome kako jezički modeli razmišljaju o složenim problemima.

Jedan model bi mogao da igra agresivno, posvećujući se vojnoj dominaciji i dosledno sledeći tu naraciju. Drugi bi mogao da razvije diplomatsku strategiju, dajući prioritet savezništvu i trgovini. Treći bi se mogao fokusirati na kulturni razvoj, obrazlažući da kulturne pobede zahtevaju kontinuirana ulaganja u specifičnu infrastrukturu. To nisu bile slučajne fluktuacije. To su bile stabilne strategije koje su opstale kroz stotine poteza i kroz više igara.

Ovo je važno iz nekoliko razloga. Prvo, za dizajn igre: to znači da bi se LLM-ovi mogli koristiti za stvaranje raznolikosti kod protivnika sa veštačkom inteligencijom. Umesto da se čvrsto kodiraju različiti nivoi težine ili arhetipovi ličnosti, mogli biste koristiti LLM-ove za prirodno generisanje različitih stilova igre. Drugo, za razumevanje LLM-ova: doslednost ovih strategija sugeriše da jezički modeli kodiraju koherentne stilove rezonovanja. Oni ne samo emuliraju obrasce površinskog nivoa. Treće, za interakciju između čoveka i veštačke inteligencije: LLM-ovi bi mogli da objasne svoje strateško rezonovanje prirodnim jezikom, čineći donošenje odluka veštačke inteligencije transparentnim na načine na koje tradicionalni algoritmi ne mogu.

Stilovi igre su ostali interpretabilni tokom celog procesa. Kada je LLM odlučio da napadne susednu civilizaciju, mogao je da artikuliše zašto. Kada se prebacio ka mirnoj ekspanziji, rezonovanje je imalo smisla u okviru njegovog ukupnog strateškog narativa. Ovo se kvalitativno razlikuje od gledanja algoritma kako pravi poteze koji optimizuju neku funkciju nagrađivanja, ali ne proizvode razumljivo objašnjenje.

Šta ovo otvara

Ovaj rad utvrđuje da je hibridna arhitektura koja uparuje LLM-ove za strateško rezonovanje sa specijalizovanim podsistemima za taktičko izvršenje održiva u komercijalnom okruženju igre. To je konkretan tehnički doprinos. Ali širi značaj rada leži u onome što on sledeće omogućava.

Za dizajn igara, ovaj pristup stvara nove mogućnosti. Saradnja između čoveka i veštačke inteligencije postaje prirodna kada veštačka inteligencija može da objasni svoje rezonovanje. Pregovaranje postaje moguće kada i čovek i veštačka inteligencija mogu da artikulišu stratešku nameru prirodnim jezikom. Arhitektura se skalira na druge strateške igre: društvene igre, vojne simulacije, igre poslovnog menadžmenta. Bilo koja oblast gde je strategija važnija od proračuna mogla bi imati koristi od ovog pristupa.

Za istraživanje agentske veštačke inteligencije, obrazac ovde se proteže izvan igara. Uvid da LLM-ovi treba da se bave rezonovanjem na visokom nivou dok delegiraju izvršenje je prenosiv. Ovo se povezuje sa širim radom na agentima i sistemima planiranja zasnovanim na LLM-u, gde jezički modeli služe kao slojevi rezonovanja za utemeljeno donošenje odluka. Slični principi se javljaju u istraživanju robotike i autonomnih sistema, gde LLM-ovi rasuđuju o ciljevima i strategiji, dok specijalizovani podsistemi obrađuju kontrolu u realnom vremenu. Voks Deorum pruža dobro sažetu studiju slučaja tog principa koji funkcioniše u velikim razmerama.

Nekoliko pitanja ostaje otvoreno. Kako sprečiti da LLM-ovi skrenu u lokalno optimalnu igru kada im nedostaje predviđanje da vide daleko unapred? Da li ova arhitektura može da podnese istinsko višeagentsko rezonovanje, gde su pregovori i obmana važni? Koliko performanse zavise od pažljivog brzog inženjeringa u odnosu na mogućnosti osnovnog modela? Koliko visoko ide plafon? Da li pristup funkcioniše za još složenije igre poput Evropa Universalis, gde prostor stanja i složenost pravila prevazilaze čak i Civilizaciju?

Ova pitanja nisu slabosti rada. Ona su pozivi. Rad utvrđuje da hibridne arhitekture funkcionišu i otvara pravac istraživanja. Sledeći koraci uključuju razumevanje ograničenja, skaliranje na složenije domene i istraživanje šta se dešava kada više agenata zasnovanih na LLM-u interaguje sa pravom agencijom i suprotstavljenim ciljevima. Tu počinje da se pojavljuje prava dubina agentske veštačke inteligencije.

Problem sa veštačkom inteligencijom u igrama koji računari nikada nisu napravljeni da reše

More posts

Sa veštačkom inteligencijom, lojalnost investitora je (skoro) mrtva: Najmanje desetak OpenAI fondova rizičnog kapitala sada podržava i Anthropic

Generalni direktor Nvidije odbacuje izveštaj da je investicija njegove kompanije u OpenAI, vredna 100 milijardi dolara, zastala

Blue Origin obustavlja letove svemirskog turizma kako bi se fokusirao na Mesec

IPO kompanije SpaceX bi mogao da otvori vrata – a sekundarne akcije u međuvremenu cvetaju