Očuvanje malih jezika

Microsoft pokrenuo inicijativu za očuvanje jezika i kulturnog identiteta Europe u doba umjetne inteligencije

Foto
Microsoft pokrenuo inicijativu za očuvanje jezika i kulturnog identiteta Europe u doba umjetne inteligencije
31.07.2025.
u 12:03
Dok samo 5 posto svjetske populacije govori engleski kao materinji jezik, engleski tekst čini polovicu web sadržaja, dominirajući podacima koji se koriste za obuku modela umjetne inteligencije
Pogledaj originalni članak

Microsoft je objavio kako pokreće inicijativu za očuvanje jezika i kulturnog identiteta Europe u doba umjetne inteligencije. To znači da se osnivaju novi inovacijski centri u Strasburgu usmjreni na prošitenje dostupnosti višejezičnih podataka za razvoj sustava umjetne inteligencije. Ti centri pod imenom AI for Good će podržavati razvoj uključivijih velikih jezičnih modela koji bolje razumiju i odražavaju jezičnu raznolikost Europe. Također, Microsfot poziva na digitalizaciju sadržaja na deset europskih jezika s ciljem obogaćivanja skupova podataka za uvježbavanje umjetne inteligencije raznolikim jezičnim materijalima.

Što ovo konkretno znači, objasnio je Brad Smit, predsjednik Microsofta. On u blogu naglašava bogatu jezičnu i kulturnu raznolikost kontinenta na kojemu se govori više od 200 jezika. Isto, Europska unija ima 24 službena jezika, a deseci drugih priznati su na nacionalnoj ili regionalnoj razini. Pa ipak, mnogi od tih jezika, čak i oni koji su dio službenih 24, poput danskog, finskog, švedskog i grčkog, predstavljaju manje od 0,6 posto web sadržaja. Drugi, poput malteškog, irskog, estonskog, latvijskog i slovenskog, jedva su vidljivi na internetu. Dok samo 5 posto svjetske populacije govori engleski kao materinji jezik, engleski tekst čini polovicu web sadržaja, dominirajući podacima koji se koriste za obuku modela umjetne inteligencije. Ovako to nekako izgleda sada.

- Na primjer, Llama 3.1, popularni model otvorenog koda, pokazuje razliku u uspješnosti veću od 15 postotnih bodova između odgovora na engleskom i grčkom jeziku te razliku veću od 25 bodova pri usporedbi engleskog i latvijskog jezika. To znači da bi, ako bi ovaj model pohađao srednju školu, bio bi na vrhu svog razreda na engleskom, ali na sredini razreda na grčkom i na dnu na latvijskom. I ta razlika između jezika vidljiva je u svim glavnim testovima uspješnosti velikog jezičnog modela, navodi Smith na svojem blogu gdje opisuje aktivnosti Microsofta na očuvanju europske kulture.

Smith je najavio inicijativu za slabije zastupljene jezike na internetu.

- Microsoft Open Innovation Center i AI for Good Lab objavit će poziv za prijedloge kako bi pomogli u proširenju ponude digitalnog sadržaja za 10 europskih jezika tako što će svoje tekstualne zbirke učiniti dostupnima na odgovoran i etički način pod vlastitim uvjetima za višejezični razvoj i iskustva umjetne inteligencije. Prijave za bespovratna sredstva bit će dostupne na web stranici AI for Good Lab, počevši od 1. rujna 2025. Prilikom odabira primatelja, MOIC i AI for Good Lab usredotočit će se na mogućnosti otključavanja podataka na jezicima s relativno niskom zastupljenošću u online sadržaju, kao što su estonski, alzaški, slovački, grčki i malteški, navodi Smith.

Bespovratna sredstva će primateljima osigurati Azure kredite te inženjersku i tehničku podršku.Jer, ova velika globalna kompanija ima i digitalne obveze koje treba ispunjavati prema Europi. Uz višejezični razvoj umjetne inteligencije, tu je i očuvanje kulture kroz umjetnu inteligenciju što je inicijativa Culture AI. Dosadašnji projekti uključuju digitalne rekonstrukcije antičke Olimpije, Mont-Saint-Michela i bazilike svetog Petra. Sljedeći veliki projekt bit će digitalna replika katedrale Notre Dame.

Ključne riječi
Pogledajte na vecernji.hr

Još nema komentara

Nema komentara. Prijavite se i budite prvi koji će dati svoje mišljenje.