Nakon što je njegova pojava uzdrmala američke burze, DeepSeek izazvao je nezapamćen interes. No zanimanje za njegove modele počelo je još prošlog tjedna kada je predstavljen R1 za koji se vrlo brzo ispostavilo da postavljenje zadatke iz rasuđivanja odrađuje na istom nivou kao i OpenAi-jev o1, a k tome je otvoren, open-source, zbog čega se dopušta da se prilagođava potrebama pojedine struke.
U osnovi nema neke razlike jer i jedan i drugi model odgovore stvaraju u nekoliko koraka u procesu koji nalikuje ljudskom razmišljanju. Za DeepSeek se vrlo brzo došlo do zaključka kako znanstvene probleme iz kemije, matematike i kodiranja rješava istim učinkom kao i o1 što je po prirodi stvari privuklo pozornost znanstvenika. Na forumima Reddita, primjerice, razvila se diskusija je li riječ doista o open-sourceu, gdje su neki tvrdili kako bi se u tom slučaju morao otkriti i kod te bi morali biti dostupni i podaci na kojima je uvježbavan, ili je riječ samo o open-weightu što znači da je moguće proučavati i nadograđivati njegove algoritme. Ipak, na repozitoriju Hugging Face nalazi se kod DeepSeeka R1 koji se može downloadati. Što se tiče znanosti, rekli bismo da bi bilo zanimljivo već i da je samo riječ o open-weightu. Ionako bi to već bilo dovoljno jer su svi modeli OpenAI-ja i drugih modela zatvoreni, odnosno koriste se onakvi kakvi jesu, kakvi su do korisnika i stigli. Nedvojbeno je DeepSeek daleko jeftiniji od konkurentskih modela nastalih na Zapadu, odnosno potreban je tek 13 dio iznosa koliko stoji da se upogoni o1 OpenAI-ja. A postoje olakšane verzije koje omogućuju i onima sa slabijim računalima da koriste kineski model. I to je dramatična razlika koja bi mogla u budućnosti igrati važnu ulogu pri odabiru velikih jezičnih modela od znanstvenih institucija.
– Trenutno je situacija takva da razne grupe/kompanije paralelno razvijaju nove velike jezične modele. Naravno, takvi se modeli međusobno uspoređuju i to se radi pomoću testnih skupova pitanja/problema na kojima se mjeri točnost odgovora raznih jezičnih modela – kaže akademik Sven Lončarić, naš vodeći stručnjak za umjetnu inteligenciju. Primijetio je kako, primjerice, da na stranici DeepSeek prikazuju podatke o rezultatima testova za razne tipove problema – opće znanje, matematički problemi, kvaliteta generiranja programskog koda i slično. I svoje rezultate uspoređuju s drugim modelima.
– DeepSeek je popularan u zadnje vrijeme zato što ima relativno dobre rezultate i čak je i bolji u pojedinim testovima od nekih drugih velikih jezičnih modela. Nadalje, njihov model je open-source (što bi trebalo značiti da svatko može doći do programskog koda i može mijenjati taj model po svojoj želji), što nije slučaj s modelima kompanije OpenAI (čiji je proizvod ChatGPT). Također je DeepSeek trenutno cjenovno povoljniji od nekih drugih komercijalno dostupnih modela. Jedan od nedostataka DeepSeeka, radi se o kineskoj kompaniji, jest to što su određeni sadržaji navodno cenzurirani, odnosno ne mogu se dobiti odgovori na određena pitanja. Za očekivati je da će se borba između kompanija koje razvijaju velike jezične modele nastaviti i da će se i u budućnosti pojavljivati novi i sve kvalitetniji veliki jezični modeli, kaže akademik Lončarić.
Već u utorak, znači dan nakon što se dogodio veliki potres na burzama poslije objave o tome da postoji novi model DeepSeek, počeli su se pojavljivati razni tutorijali i vodiči kroz kineski model koji je stvorio startup pokrenut prije samo dvije godine. Kao temeljne značajke navedene su obrada jezika u govoru, analiza podataka, kreativno pisanje, kodiranje i još toga. Po onome što smo mi vidjeli koristeći osnovni model jest da je on brz koliko i ChatGPT, precizne izmjere dat će odgovor je li čak i brži. Nadalje daje suvisle odgovore, odnosno suvislije i točnije od odgovora na ista pitanja u odnosu na prvu verziju ChatGPT-ja. Izvori iz kojih crpi informacije već su označeni kao tema u formiranju velikih jezičnih modela u kontekstu autorskih prava, ima mišljenja kako podaci i nisu otkriveni kako i DeepSeek ne bi došao u ovaj problem već nakon svojeg predstavljanja. Cijena korištenja ipak je stavka koja bi mogla privući znanstvenike, a uz to i mogućnost uključivanja modela DeepThink R1. Ovaj model omogućuje bolje razumijevanje i 'razmišljanje' te će pokazati i postupak rješavanja postavljenog problema ili pitanja. Modeli DeepSeeka mogu se downloadati na računala i tako koristiti, no jasno je da je povezanost s bazom podataka nužna da se od njega dobije najviše. Međutim ne možete downloadati konkurentske modele. Treba isto reći da je i danima nakon što je dospio u žižu javnosti DeepSeek bio jako opterećen pa nam se događalo da dobijemo poruku kako su serveri zauzeti. To je nešto što se događalo i s ChatGPT-jem kada se pojavio pa ćemo vidjeti hoće li se pokazati da DeepSeek na kraju ipak treba jednako resursa kao i konkurentski modeli.
Još je jednu stvar potaknuo DeepSeek, a to je da je sada na Hugging Faceu prava poplava novih modela kao i nadogradnji samog R1. Sam su model i njegove nadogradnje presnimljeni više od tri milijuna puta prvih nekoliko dana otkako se pojavio. Nešto slično vidjeli smo već kod Androida koji je također otvoren pa je za njega dostupan ogroman broj aplikacija. Apple, recimo, svoj ekosustav drži zatvorenim. Znanstvenici na američkom Sveučilištu Ohio u Columbusu dali su 20 zadataka i DeepSeeku R1 te ChatGPT-ju o1 iz zbirke znanstvenih problema koju su ranije bili sastavili, među kojima su bili i zahtjevi za analizu i vizualiziranje podataka. Ipak, i jedan i drugi model riješili su točno tek trećinu zadanoga, ali je R1 to napravio za 13 puta manju cijenu, ali je s druge strane ipak bio malo sporiji od o1. Na Oxfordu su modeli testirani u matematici, na funkcionalnoj analizi, gdje je R1 ponudio bolje rješenje od o1. Kako, recimo, navode u analizi u Natureu, ništa se od ponuđenih rješenja ne bi trebalo uzimati zdravo za gotovo jer modeli ipak nemaju 100-postotnu točnost, svakako ne i kod tako kompleksnih analiza. Odnosno, znanstvenici koji koriste modele na takav način moraju imati i odgovarajuće predznanje. Ali, upravo otvorenost i dostupnost R1 omogućuje znanstvenicima da sami usavrše model dodatnim uvježbavanjem, pa i uz pomoć drukčijeg seta podataka napravljenog za pojedini znanstveni proces. Izdvojimo i jedno zanimljivo mišljenje zapadnih znanstvenika o pojavi kineskog modela.
– Mislim da napredak nije iznenađujući, po meni je to samo vrh ledenog brijega u smislu vrste inovacija koje možemo očekivati u ovim modelima. Povijest pokazuje da se velike tvrtke s naporom inoviraju dok rastu, a ono što smo vidjeli kod mnogih od tih velikih tvrtki je zamjena ulaganja u računala umjesto napornog intelektualnog rada. To je stvorilo idealne uvjete za dolazak "čudotvornog oružja" u kojem će nova razmišljanja trenutnu tehnologiju brzo činiti suvišnom. Ne mislim da je DeepSeek to, jer su primijenjene inovacije relativno inkrementalne, ali pokazuje da smo još uvijek u dobu sličnom onome kada se pojavio prvi parni stroj. Ima dovoljno prostora za pojavu nekih novih nadobudnih Jamesa Watta, ali je manje vjerojatno da će oni dolaziti iz redova etabliranih igrača, rekao je profesor Neil Lawrence, predavač i stručnjak za Googleov DeepMind na Cambridgeu.
GALERIJA Umjetna inteligencija, američka i kineska, boji se da bi mogla postati oružje u rukama kapitalističkih i političkih interesa