Zakaj potrebujemo svojega GaMS-a?

Dr. Simon Krek

Zgodovina slovenskega jezika je polna prelomnic in preizkušenj, ko je bilo treba jezik ubraniti škodljivih teženj ali pa potisniti njegov razvoj v novo dobo. Z vzponom generativne umetne inteligence je slovenski jezik znova na enem izmed takšnih razpotij.

Veliki generativni jezikovni modeli spreminjajo naš način komuniciranja, dostop do informacij in delovne procese. Trenutno javno dostopni veliki jezikovni modeli so naučeni in optimizirani predvsem za angleščino in druge večje jezike, za slovenščino delujejo slabše, predvsem pri podatkih, ki so vezani na naš materni jezik in kulturo.

Veliki generativni jezikovni model za slovenščino
Da bi slovenski jezik v digitalni dobi sledil pravi poti, na Centru za jezikovne vire in tehnologije Univerze v Ljubljani v okviru projekta PoVeJMo razvijamo veliki generativni jezikovni model za slovenščino. Poimenovali smo ga GaMS (generativni model za slovenščino), s čimer smo ga postavili ob bok drugim odprtokodnim jezikovnim modelom, kot so LLaMA, Alpaca, in Koala. Naš cilj je prilagodljiva in napredna obdelava naravnega jezika, ki bo okrepila vlogo slovenščine v sodobnem digitalnem okolju.

Ne gre le za tehnološko učinkovitost, temveč tudi za vprašanje digitalne suverenosti. Slovenski jezik ni suveren, če o možnostih njegove uporabe v digitalnem okolju odločajo ameriška ali kitajska podjetja.

Priprava nacionalnega velikega jezikovnega modela bo omogočila razvojno neodvisnost na področju jezikovnih tehnologij in zasnovo, vsebino ter dostopnost modela v skladu s slovenskim javnim interesom. GaMS bo vseboval večjo količino podatkov v slovenščini in bo zato bolj jezikovno avtentičen in natančen. Bolje bo upošteval lokalne kulturne specifike in navade, kar je pomembno za ustrezno in učinkovito komunikacijo.

Da zaupni podatki ne bodo romali v tujino …
Slovenski jezikovni model bo odprto dostopen za raznolike vrste uporabe, od integracije v medicini in industriji, razvili bomo tudi nove jezikovne vire in tehnologije za pisno in govorjeno slovenščino, kar bo spodbudilo nadaljnji razvoj in konkurenčnost orodij v slovenskem jeziku. Ob tem velja izpostaviti, da lahko nacionalni jezikovni model pridoda tudi h konkurenčnosti slovenskih podjetij. Managerji lahko jezikovni model uporabite za optimizacijo delovnih procesov, saj ga lahko vključite v obstoječe informacijske sisteme ali uporabite za avtomatizacijo ponavljajočih se nalog, kot so obdelava e-pošte, priprava poročil in generiranje vsebin. Poleg tega lahko izboljša interno komunikacijo z naprednimi iskalnimi funkcijami. Ključno pri tem je, da zaupnih internih podatkov ne boste poslali v tujino, kot se to dogaja pri uporabi komercialnih ameriških in kitajskih spletnih klepetalnikov. Pri tem ne gre le za tehnološko učinkovitost, temveč tudi za vprašanje digitalne suverenosti. Slovenščina ni suverena, če o možnostih njene uporabe v digitalnem okolju odločajo ameriška ali kitajska podjetja.

Zgradimo varno, kakovostno in odprto dostopno UI – v slovenščini
Da bo GaMS dobro deloval, potrebujemo besedila v obsegu 40 milijard besed. Zato organiziramo nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini. K posredovanju besedil vabimo prav vsakogar. Nagovarjamo tako večje gradivodajalce (založbe, medije, knjižnice, šole in druge javne ustanove) kot posameznike, ki želijo prispevati h gradnji velikega jezikovnega modela za slovenščino. Pri zbiranju gradiv zagotavljamo transparentnost in jasno metodologijo ter skrbimo za zaščito gradivodajalcev z varno in odgovorno obdelavo podatkov. Zavezujemo se k spoštovanju etičnih standardov, vključno s spoštovanjem zasebnosti in anonimnosti ter zagotavljanjem ustreznih soglasij za obdelavo besedil.

Čim več besedil bomo imeli, bolje bo model deloval. Jezikovni model lahko zgradimo samo skupaj; s sodelovanjem bodo posamezniki omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.

Besedila lahko prispevate na spletni strani Povejmo.si.

Dr. Simon Krek je vodja Centra za jezikovne vire in tehnologije na Univerzi v Ljubljani in vodja projekta PoVeJMo.