Microsoft je objavio kako pokreće inicijativu za očuvanje jezika i kulturnog identiteta Europe u doba umjetne inteligencije. To znači da se osnivaju novi inovacijski centri u Strasburgu usmjreni na prošitenje dostupnosti višejezičnih podataka za razvoj sustava umjetne inteligencije. Ti centri pod imenom AI for Good će podržavati razvoj uključivijih velikih jezičnih modela koji bolje razumiju i odražavaju jezičnu raznolikost Europe. Također, Microsfot poziva na digitalizaciju sadržaja na deset europskih jezika s ciljem obogaćivanja skupova podataka za uvježbavanje umjetne inteligencije raznolikim jezičnim materijalima.
Što ovo konkretno znači, objasnio je Brad Smit, predsjednik Microsofta. On u blogu naglašava bogatu jezičnu i kulturnu raznolikost kontinenta na kojemu se govori više od 200 jezika. Isto, Europska unija ima 24 službena jezika, a deseci drugih priznati su na nacionalnoj ili regionalnoj razini. Pa ipak, mnogi od tih jezika, čak i oni koji su dio službenih 24, poput danskog, finskog, švedskog i grčkog, predstavljaju manje od 0,6 posto web sadržaja. Drugi, poput malteškog, irskog, estonskog, latvijskog i slovenskog, jedva su vidljivi na internetu. Dok samo 5 posto svjetske populacije govori engleski kao materinji jezik, engleski tekst čini polovicu web sadržaja, dominirajući podacima koji se koriste za obuku modela umjetne inteligencije. Ovako to nekako izgleda sada.
- Na primjer, Llama 3.1, popularni model otvorenog koda, pokazuje razliku u uspješnosti veću od 15 postotnih bodova između odgovora na engleskom i grčkom jeziku te razliku veću od 25 bodova pri usporedbi engleskog i latvijskog jezika. To znači da bi, ako bi ovaj model pohađao srednju školu, bio bi na vrhu svog razreda na engleskom, ali na sredini razreda na grčkom i na dnu na latvijskom. I ta razlika između jezika vidljiva je u svim glavnim testovima uspješnosti velikog jezičnog modela, navodi Smith na svojem blogu gdje opisuje aktivnosti Microsofta na očuvanju europske kulture.
Smith je najavio inicijativu za slabije zastupljene jezike na internetu.
- Microsoft Open Innovation Center i AI for Good Lab objavit će poziv za prijedloge kako bi pomogli u proširenju ponude digitalnog sadržaja za 10 europskih jezika tako što će svoje tekstualne zbirke učiniti dostupnima na odgovoran i etički način pod vlastitim uvjetima za višejezični razvoj i iskustva umjetne inteligencije. Prijave za bespovratna sredstva bit će dostupne na web stranici AI for Good Lab, počevši od 1. rujna 2025. Prilikom odabira primatelja, MOIC i AI for Good Lab usredotočit će se na mogućnosti otključavanja podataka na jezicima s relativno niskom zastupljenošću u online sadržaju, kao što su estonski, alzaški, slovački, grčki i malteški, navodi Smith.
Bespovratna sredstva će primateljima osigurati Azure kredite te inženjersku i tehničku podršku.Jer, ova velika globalna kompanija ima i digitalne obveze koje treba ispunjavati prema Europi. Uz višejezični razvoj umjetne inteligencije, tu je i očuvanje kulture kroz umjetnu inteligenciju što je inicijativa Culture AI. Dosadašnji projekti uključuju digitalne rekonstrukcije antičke Olimpije, Mont-Saint-Michela i bazilike svetog Petra. Sljedeći veliki projekt bit će digitalna replika katedrale Notre Dame.