Ilgą laiką lietuvių kalba buvo neprieinama daugelyje kasdien naudojamų technologijų. Kodėl negalima kalbėti su savo išmaniaisiais įrenginiais lietuviškai, kodėl robotas siurblys nereaguoja į lietuviškas komandas, kodėl balso asistentai mūsų gimtąja kalba yra tokie riboti?
Vilniaus universiteto (VU) mokslininkai tam, kad technologijos taptų kuo prieinamesnės lietuvių kalba, dirba daugiau nei dešimt metų.
Šiuo metu gautas finansavimas sumanymui „Didžiojo lietuvių kalbos garsyno sukūrimas“ (LIEPA-3), kuris yra vienas reikšmingiausių žingsnių lietuvių kalbos technologijų srityje. LIEPA-3 suteiks naujų galimybių mūsų kalbai būti pritaikytai šiuolaikinėse išmaniosiose sistemose.
Projektu siekiama, kad lietuvių kalba taptų neatsiejama technologijų dalimi, kuri būtų lygiai taip pat prieinama kaip ir didžiosios kalbos, tokios kaip anglų ar vokiečių.
„Mes gyvename tokiame pasaulyje, kur kalbos technologijos tampa vis svarbesnės kasdieniame gyvenime. Jei lietuvių kalba neišsilaikys šioje srityje, mes liksime nuošalyje.
LIEPA-3 yra mūsų šansas išlaikyti lietuvių kalbą gyvybingą ir įtrauktą į šiuolaikines technologijas“, – sako VU Matematikos ir informatikos fakulteto mokslininkas ir vienas iš projekto LIEPA-3 sumanytojų Gediminas Navickas.
Pasak G. Navicko, šiame projekte ne tik sukuriamos technologijos, bet ir ateities kartoms užfiksuojamas išskirtinis mūsų kalbos skambesys bei savitumas, kurie ypač svarbūs ir kalbos technologijų kūrimui, ir pačios kalbos tyrimams.
Lietuvių kalbos ateitis technologijose
LIEPA-3 yra tęstinis projektas, kuriuo siekiama užtikrinti lietuvių kalbos išlikimą ir pritaikymą naujoviškoje skaitmeninėje aplinkoje, stiprinant valstybės skaitmeninimo pajėgumus.
Šis projektas – ankstesnių projektų LIEPA ir LIEPA-2 sėkmės rezultatas, perimantis jų pasiekimus ir praplečiantis lietuvių kalbos technologijų galimybes.
Projektus LIEPA ir LIEPA-2 taip pat įgyvendino mokslininkai iš VU Matematikos ir informatikos bei Filologijos fakultetų.
Abu minėti projektai apėmė dvi esmines kryptis: informacinių technologijų sprendimus – naujas paslaugas visuomenei ir infrastruktūrinius sprendimus, susijusius su lietuvių šnekamosios kalbos garsynu, kalbos sintezatoriais bei šnekos atpažinimo sistemomis.
Gausi mokslininkų komanda jau vykdo naująjį projektą LIEPA-3. Skirtingai nei jo pirmtakai, šis sumanymas kreipiamas ne į kelias kryptis, o į vieną pagrindinę – plataus masto Didžiojo anotuoto lietuvių kalbos garsyno sukūrimą.
Anotuotas garsynas – tai struktūriškai aprašyti garso įrašai (lietuvių šnekos pavyzdžiai), jį sudaro garso įrašai ir juos atitinkantys tekstai su laiko žymėmis. Naujai kuriamas garsynas bus net 10 kartų didesnis nei didžiausias šiuo metu egzistuojantis lietuvių kalbos garsynas ir apims 10 tūkstančių valandų.
Turėdami tokio dydžio garsyną, galėsime turėti lietuvių šnekos atpažintuvus (kai kompiuteriai ir kiti įrenginiai supranta, ką jiems sakome lietuvių kalba), atitinkančius šiuolaikinius kokybės bruožus.
Nekilnojamojo turto prekeiviai į klausimą, kokie trys svarbiausios dalys sudaro nekilnojamojo turto vertę, atsako: vieta, vieta ir vieta.
Perfrazuojant klausimą
Kokie trys svarbiausi komponentai sudaro kalbos technologijų vertę, atsakymas būtų: duomenys, duomenys, duomenys. Iki šiol nėra sukurto įvairiapusiško, išsamaus ir, svarbiausia, didelės apimties lietuvių kalbos garsyno.
Projekto LIEPA-2 metu sukurtas 1000 valandų garsynas yra labai mažas, palyginti su technologiškai pažengusių kalbų garsynais.
Be apimties, garsyno kūrimas svarbus ir dar vienu bruožu: kurdami šnekos technologijas kolegos informatikai pasitelkia ir filologus, lingvistus.
„Tai gražus ir prasmingas bendradarbiavimo ir tarpdalykiškumo pavyzdys, kuris tęsiasi nuo projekto LIEPA-1 pradžios. Didelės apimties garsynas svarbus ne tik šnekos technologijoms, jis bus puiki bazė ir įvairiems lingvistiniams tyrimams.
Ypač svarbu, kad pusę garsyno sudarys spontaninė kalba, ši dalis gerai parodys šiuolaikinės šnekamosios lietuvių kalbos būklę, kurią mes, deja, dabar matome gana fragmentišką būtent dėl išsamių, plačių duomenų trūkumo.
Garsynas svarbus ne tik šnekos technologijų ir lingvistinių tyrimų kontekste – gal nebus per drąsu jį palyginti su didžiuoju Lietuvių kalbos žodynu, kur išsaugoti ne tik mūsų kalbos, bet ir tapatybės ženklai – šiuo atveju ne užrašyti, bet pasakyti gyvu žodžiu“, – džiaugiasi VU Filologijos fakulteto profesorius Vytautas Kardelis.
Projektą vykdo VU Matematikos ir informatikos fakultetas bendradarbiaudamas su Filologijos fakultetu kartu su partneriais Vytauto Didžiojo universitetu ir Lietuvių kalbos institutu.
„Projektui vykdyti skirtas laikas yra labai trumpas – vos daugiau nei pusantrų metų, nors įprastai tokiam darbui reikėtų bent trejų metų.
Tačiau projektą vykdo stipriausias šios srities ekspertų konsorciumas, suburtas iš patyrusių organizacijų, todėl tikime, kad projektas bus sėkmingai užbaigtas“, – sako projekto LIEPA-3 vadovė, VU Matematikos ir informatikos fakulteto mokslininkė dr. Gražina Korvel.
Laukiami sumanymo rezultatai
„Projekto LIEPA-3 pagrindinis tikslas – sukurti 10 tūkst. valandų lietuvių kalbos anotuotą garsyną, kuris bus sudarytas pagal diktorių amžiaus, lyties, tarminio regiono kriterijus.
Garsynas atspindės šnekos turinio fonetinę, morfologinę, sintaksinę, stiliaus ir tarminę įvairovę, skirtingos įrašymo įrangos ir aplinkos akustinio fono skirtumus“, – svarbą ne tik mokslui, bet ir visuomenei pabrėžia dr. G. Korvel.
Pats garsyno kūrimo procesas reikalauja nemažai darbo: nuo garsinių duomenų rinkimo, apdorojimo ir tikslumo vertinimo iki galutinio duomenų įkėlimo į atviros prieigos platformas, kad projekto rezultatai būtų prieinami visiems besidomintiems.
Pasak projekto vadovės, turėdami viešai prieinamą ir išsamų garsyną, mokslininkai galės plėtoti pažangias kalbos atpažinimo, sintezės ir natūralios kalbos apdorojimo metodikas, o tai atvers galimybes dirbtinio proto plėtojimui Lietuvoje.
Be to, garsynas bus itin vertingas dirbant su moksliniais tyrimais, nukreiptais į socialinės įtraukties didinimą – galėsime labiau atsižvelgti į specialiųjų poreikių turinčius žmones ir kurti technologijas, kurios būtų intuityvios ir visiems prieinamos.
Įgyvendinus projektą, atsiras daugybė galimybių praktiškai pritaikyti jo rezultatus. Visų pirma, Lietuvos mokslininkai ir technologijų kūrėjai galės plėtoti pažangias kalbos technologijas ir kurti naujoviškas elektronines paslaugas lietuvių kalba.
Be to, viešai prieinami lietuvių kalbos garsyno ištekliai skatins ir kitų šalių mokslininkus, dirbančius kalbos technologijų srityje, įtraukti lietuvių kalbą į savo tyrimus ir taip užtikrinti lietuvių kalbos aktyvumą skaitmeninėje erdvėje bei atverti tarptautinio bendradarbiavimo galimybes.
Pasak G. Navicko, projektu siekiama prisidėti prie Ekonomikos ir naujovių ministerijos Valstybės skaitmeninimo plėtros programos įgyvendinimo, padidinti kalbos technologijų pasiekiamumą, užtikrinti jų veikimą lietuvių kalba ir padėti atnaujinti visuomenės skaitmeninius įgūdžius: „Per ateinančius porą metų bus sukurtas garsynas, kuris taps viešai ir nemokamai prieinamas ir naudojamas moksliniuose tyrimuose bei kuriant skaitmeninius sprendimus.
Taip bus prisidedama prie aukštesnės kokybės elektroninių paslaugų kūrimo ir skaitmeninimo plėtros Lietuvoje.“
Didžiausios pagarbos vertas šis darbas, nes UNESCO skelbtos gražiausios pasaulyje kalbos rinkimuose pirma buvo pripažinta lietuvių, antroji norvegų, o trečioji – italų kalba. O lietuviai yra planetos vardu Žemė žmonių senbuvių tarpe. (“Istorija pareinant į Lietuvą”, Klaipėdos universiteto leidykla/2023, gruodis).
Ar ir jų SMS žinutės, kaip ir lietuviškos, į dvi dalis padalintos siunčiamos? T.y., diakritiniai ženklai atskirai siunčiami, ir už tai žinutės brangesnės? Ir internete tai čia, tai ten be savo ženklų tenka apsieiti?
Palyginkite –
– lt.wikipedia.org/wiki/Čekų_kalba
Jų abėcėlė daugiau diakritikų turi, nei mes…
Dirba daugiau nei 10 metų!?
O man regis, čia tas, taip sakant, projektas labiau panašus į paprasčiausią pinigų plovyklą.
Buityje yra žymiai daugiau kur taisyti kalbos dalykus (pvz., datos rašymas kainose parduotuvėse ar kur nors kitur, trumposios žinutės iš Lietuvos pašto bei kitų paslaugų teikėjų, ir t.t.). Čia būtent technologiniai dalykai. Vadinas, tinka VU mokslininkų darbams…
Labai reikalingas darbas, nes jau dabar daugelis LRT žurnalistų, kitų viešai kalbančiųjų kalboje priebalsiai yra praradę lietuvišką skambesį, taigi dar dešimtmetis ir lietuviško priebalsinio garsyno, taigi ir žodžių skambesio kalbant gali nebelikti. Iš gražaus kalbos skambėjimo teliks tik šnabždėsys.
Tas staigus ir nesuvokiamas LRT laidų vedėjų tarties pokytis stebėtinai sutapo su vienos aršios lietuvių kalbos kritikės išnykimu iš viešumos… Sakytum, į pogrindį išėjo. Stebėtinai entuziastingai jį perėmė ir Žinių radijo laidų vedėjai. O kur dar lietuviškų žodžių nykimas iš sakinių, arba dar vartojamu lietuviškų žodžių vartojimas pagal anglų k. taisykles. Tartum prie LRT mikronų darbuotųsi nebe lietuviai, o kažkokie DI ingredientai publikacijas transliuoja…
Ljęgzů
Kalbų raidos žinynas
– az.on.lt/legua
Dvibalsių naika
− az.on.lt/dvibalsiai
Mano pastebėjimas. “europeudai” lietuviškus žodžius NAUDOJA ne lietuviškiems žodžiams surišti sakinyje.
Sarmata.