Znanstvenici su sastavili pitanja za dosad najteži test namijenjen umjetnoj inteligenciji (AI). Kako je objavilo Sveučilište Texas A&M, čak tisuću znanstvenika udružilo se kako bi otežali posao AI-ju koji je počeo sve uspješnije rješavati testove, pa su sastavili "oosljednji ispit čovječanstva" s 2500 pitanja koja pokrivaju visoko specijalizirane teme iz mnogih područja. Cilj je bio identificirati područja u kojima AI sustavi još uvijek zaostaju.
Svaki je problem pažljivo osmišljen tako da ima jedan jasan, provjerljiv odgovor. Pitanja su također izrađena kako bi se spriječila brza rješenja putem jednostavnih internetskih pretraga.I što se dogodilo? Rezultati pokazuju da čak i najjači AI sustavi moraju još "učiti". Moćni AI modeli mučili su se s ispitom. GPT-4o postigao je rezultat od 2,7 posto, Claude 3.5 Sonnet dosegao je 4,1 posto, dok je OpenAI-jev o1 model ostvario nešto bolje rezultate s osam posto točnih odgovora. Najsposobniji sustavi do sada, uključujući Gemini 3.1 Pro i Claude Opus 4.6 dosegli su razinu točnosti između oko 40 i 50 posto. - Ovo nije utrka protiv umjetne inteligencije. To je metoda za razumijevanje gdje su ovi sustavi jaki, a gdje se bore. To razumijevanje nam pomaže u izgradnji sigurnijih i pouzdanijih tehnologija. I, što je važno, podsjeća nas zašto je ljudska stručnost i dalje važna - rekao je Nguyen. Znanstvenici su javno objavili neka pitanja, no većinu ne žele otkrivati kako modeli umjetne inteligencije ne bi mogli zapamtiti odgovore.
Test s 2500 pitanja pokrio je matematiku, humanističke znanosti, prirodne znanosti, drevne jezike i širok raspon visoko specijaliziranih akademskih područja. Dr. Tung Nguyen, izvanredni profesor na Odjelu za računalne znanosti i inženjerstvo na Texas A&M rekao je da inteligencija nije samo prepoznavanje uzoraka, već i dubina, kontekst i specijalizirana stručnost. Sposobnosti velikih jezičnih modela (LLM) znatno su napredovale, premašujući ljudske performanse u raznim zadacima. Kako bi se sustavno izmjerile te sposobnosti, LLM-ovi se procjenjuju na temelju mjerila, skupova pitanja koja procjenjuju performanse modela na zadacima poput matematike, programiranja ili biologije. Najnapredniji LLM-ovi postizali su više od 90 posto točnosti.