Prof. dr. S. Rackevičienė: Kalbotyra ir neuroninių tinklų technologijos pasitarnaus mūsų kibernetiniam saugumui (3)

prof. dr. Sigita Rackevičienė ir dr. Andrius Utka | rengėjų nuotr.

prof. dr. Sigita Rackevičienė ir doc. dr. Andrius Utka | rengėjų nuotr.

Šiuolaikinės technologijos mus supa visur – nuo gertuvės, kuri pati primena kada laikas išgerti vandens, iki mobilios programėlės, padedančios surasti reikiamas žinias vos kelių mygtukų paspaudimu. Tačiau ar susimąstome, kur keliauja duomenys apie mūsų įpročius, sveikatą, kasdieninius veiksmus, kuriuos įsimena išmanūs įrenginiai? Ar pagalvojame apie tai, ar jie yra saugūs ir ateityje nebus panaudojami tam, kad mumis būtų galima pasinaudoti ir sąmoningai valdyti mūsų sprendimus? Ar jie nėra prieinami piktavaliams, kurie galėtų mums pridaryti nuostolių?

Nepaisant didelės svarbos, daugelio neatsakytų klausimų ir įvairių pavojų, kibernetinio saugumo sritis Lietuvoje vis dar per mažai tyrinėjama. O šiai jaunai ir greitai besiplėtojančiai sričiai reikalingos naujos tikslios sąvokos būtinos tarpusavio susikalbėjimui tarp šios srities darbuotojų ir su plačiąja visuomene.  Lietuvoje šiuo metu yra kuriamas ypatingas kibernetinio saugumo terminų dvikalbis (anglų-lietuvių kalbų) žodynas, kurio rengimui pasitelkiamos naujausios neuroninių tinklų technologijos. Viena iš šio sumanymo autorių – Mykolo Romerio universiteto Žmogaus ir visuomenės studijų fakulteto Humanitarinių mokslų instituto profesorė Sigita Rackevičienė, pasidalino savo patirtimi, kaip sekasi kalbininkams įveikti kibernetinio saugumo terminų sisteminimo ir neuroninių tinklų įvaldymo iššūkius.

Jei nepavyksta dukart – bandyk dar!

doc. dr. Andrius Utka | rengėjų nuotr.

doc. dr. Andrius Utka | rengėjų nuotr.

Kibernetinio saugumo terminų duomenų bazė (kuri veikskaip žodynas) kuriama vykdant Lietuvos mokslo tarybos apmokamą veiklą „Dvikalbis automatinis terminų atpažinimas“ (DVITAS). Jį vykdo dviejų universitetų – Mykolo Romerio universiteto ir Vytauto Didžiojo universiteto mokslininkų grupė. Tačiau ne viskas ėjosi sklandžiai rengiant paraišką šiai veiklai. Paraiška buvo atmesta net du kartus. S. Rackevičienė (MRU) ir Andrius Utka (VDU) rengdami šią paraišką praleido daugybę vakarų ir savaitgalių, ir tik trečią kartą, dar labiau išgryninus sumanymą, pavyko įtikinti paraiškų vertintojus, kad sumanymas vertas paramos.

„Tiek po pirmo, tiek po antro atmetimo buvo labai nusivirusios rankos, bet niekaip negalėjome pasiduoti, nes per daug buvome įdėję darbo ir atidavę širdies šiam sumanymui. Ir pagaliau mums pasisekė!“ – pasakoja S. Rackevičienė.

Šiuo metu prie DVITAS dirba trys MRU mokslininkai (S. Rackevičienė, Liudmila Mockienė ir Marius Laurinaitis) ir trys VDU mokslininkai (A. Utka, Agnė Bielinskienė ir Aivaras Rokas).

Kodėl būtent DVITAS?

„Terminologija padeda suvokti, kaip žmonės pažįsta tam tikrą dalykinę sritį, kaip kuriamos to srities sąvokos ir kokiais ryšiais jos susijungia bendroje tos srities sąvokinėje sistemoje. Taigi terminijos tyrimai įgalina suvokti mūsų mąstymą, žinių įgijimo bei struktūrinimo procesus. Kita svarbi terminologijos tyrimų dalis – išsiaiškinti, kaip tos pačios sąvokos pavadinamos skirtingomis kalbomis, kaip sudaromi ir vartojami terminai skirtingose kalbose. Pagaliau terminologijoje labai svarbi ir taikomoji veikla – terminų tvarkyba, žodynų / duomenų bazių kūrimas,“ – terminologijos užduotis aiškina S. Rackevičienė.

„Šiuolaikinė terminologija jau nebeatskiriama nuo technologijų. Terminai ir jų apibrėžtys renkami iš tekstų automatiniu būdu, pasitelkus kompiuterines programas, kurios suteikia galimybę dirbti su dideliais tekstų kiekiais, nuolat atnaujinti terminų išteklius, tirti terminais nusakomų sąvokų ryšius, terminų vartosenos tendencijas, ieškoti jų atitikmenų kitomis kalbomis ir kt. Lietuvių kalbai tokių kompiuterinių įrankių dar labai stinga, todėl didžioji dalis lietuvių kalbos terminų tyrimų ir tvarkybos darbų vis dar atliekama rankiniu būdu. Taigi atėjo suvokimas, kad norint nuveikti terminologijoje kažką naujo ir reikšmingo būtina apsijungti su programuotojais ir kompiuterinės lingvistikos specialistais. Taip prasidėjo partnerių paieškos, žvilgsnis krypo į VDU mokslininkus, kurie jau turėjo patirties šioje srityje – 2009–2012 m. įvykdė terminologijos projektus, skirtus automatiniam švietimo ir mokslo terminų atpažinimui bei apibrėžimui ir parengė jų žodyną. Labai džiaugiuosi, kad su VDU Kompiuterinės lingvistikos centro vadovu doc. dr. Andriumi Utka labai greitai radome bendrą kalbą, VDU mokslininkams pasirodė svarbu ir įdomu tęsti jų pradėtą darbą ir išbandyti naujausias technologijas terminų rinkimui ir duomenų bazės kūrimui,“ – pasakoja S. Rackevičienė, – Kibernetinio saugumo sritį pasirinkome dėl kelių priežasčių: ši sritis ypatingai aktuali šiandien, jos lietuviška terminija dar labai „jauna“, besiformuojanti, šių terminų duomenų bazės poreikį išsakė tiek ES ir Lietuvos vertėjai, tiek kibernetinio saugumo specialistai.“

Bendradarbiaudami turtėjame

 

Bendradarbiavimas su VDU Kompiuterinės lingvistikos centru prasiplėtė ir kitomis kryptimis. S. Rackevičienė ir A.Utka yra veiklūs Lietuvių terminologijos forumo dalyviai. Šis forumas apjungia ES ir Lietuvos įstaigų terminologus bendriems pasitarimams ir darbui. 2018 m. ES Tarybos Lietuvių kalbos vertimo raštu skyriaus kvietimu S. Rackevičienė ir A. Utka lankėsi ES Taryboje Briuselyje, kur surengė mokymus ES įstaigų vertėjams ir terminologams „Tesktynais pagrįsta angliškų ir lietuviškų kibernetinio saugumo terminų analizė“.

2019 m. A. Utka ir S. Rackevičienė tapo nacionaliniais atstovais COST veiklos „Europos tinklas internetinių lingvistinių duomenų tyrimams („European network for Web-centred linguistic data science“) valdymo komitete. Šia veikla siekiama susieti įvairių kalbų lingvistinius duomenis į bendrą saitą, kuris įgalintų juos lengvai pasiekti internete ir panaudoti tiek mokslinėms, tiek praktinėms reikmėms. Dalyvavimas šioje veikloje svarbus ir DVITO projekto vykdymui. Jis atveria galimybę susipažinti su terminologinių duomenų siejimo technologijomis, kurios įgalins sukurtą kibernetinio saugumo terminų bazę susieti su kitais internetiniais terminų ištekliais, žymiai padidins jos matomumą ir pasiekiamumą.

2019 m. VDU taip pat pakvietė MRU į CLARIN LT konsorciumą (Common Language Resources and Technology Infrastructure), kurį sudaro 5-ios Lietuvos institucijos (VDU, KTU, VU, MRU ir Baltijos pažangių technologijų institutas). CLARIN saugyklose kaupiami skaitmeniniai kalbų pagrindu sukurti teksto, garso, vaizdo ir multimodalūs ištekliai ir jų analizei būtini įrankiai. Šioje saugykloje ketinama patalpinti ir DVITO lietuvių ir anglų kalbų kibernetinio saugumo išteklius.

„Taigi susitelkus ir ėmus bendradarbiauti galima labai daug ką nuveikti,“ – teigia Sigita Rackevičienė.

MRU absolventas prisijungė prie projekto ir kuria neuroninius tinklus

prof. dr. Sigita Rackevičienė | MRU nuotr.

prof. dr. Sigita Rackevičienė | MRU nuotr.

„Mane labai džiugina, kad prie DVITO projekto įgyvendinimo prisijungė MRU Humanitarinių mokslų instituto bakalauro studijų programos „Vertimas ir redagavimas“ absolventas Aivaras Rokas, kuris studijavo anglų ir norvegų kalbas. Jis buvo pasirinkęs mane savo baigiamojo bakalauro darbo vadove, tačiau jaučiau, kad darbo tema nėra jam įdomi. Pasikalbėjus, išsiaiškinau, kad jam patiktų programavimas. Tada jam pasiūliau daryti terminų automatinio atpažinimo tyrimą. Aivaras labai karštai ėmėsi šio darbo, programavo ir testato įvairius statistinius ir lingvistinius metodus automatiškai atpažinti teisės terminus lietuviškuose raštuose. Sėkmingai apgynęs baigiamąjį bakalauro darbą iš kompiuterinės lingvistikos srities, Aivaras įstojo į VDU „Moderniosios lingvistikos“ magistratūros studijų programą, kur toliau tobulino savo programavimo įgūdžius ir ėmė dirbti su neuroniniais tinklais, įgalinančiais pasiekti itin aukštų automatinės terminų paieškos rezultatų. Burdami DVITO komandą net nesvarstėme, kokį programuotoją pasikviesti – juo turėjo būti Aivaras, kuris nuolat gilinasi į programavimo naujoves ir įvaldo naujausias technologijas. Aivaras projekte atsakingas už visus programavimo darbus, kurių svarbiausias – neuroninių tinklų kūrimas automatiniam terminų atpažinimui. Labai džiaugiuosi, kad Aivaras išdrįso pasirinkti jam įdomų kelią, nors jis ir buvo daug sudėtingesnis, ir didelio darbo dėka pasiekia tokių puikių pasiekimų. Manau, kad jo laukia labai didelės galimybės ateityje. Dabar, kai dėstau „Kompiuterinių terminų tyrimų ir tvarkybos“ dalyką, visuomet galiu su Aivaru pasitarti“, – savo studento sėkme džiaugiasi profesorė.

Pirmieji DVITO darbai

Prof S. Rackevičienė pasakoja: „Pagrindinis darbas dabartiniame DVITO projekto etape yra kibernetinio saugumo tekstynų kūrimas, t. y. kibernetinio saugumo tekstų rinkimas ir sisteminimas pagal apsibrėžtus kriterijus. Kuriami dviejų rūšių tekstynai – lygiagretusis, kurį sudarys angliški kibernetinio saugumo tekstai ir jų vertimai į lietuvių kalbą (daugiausia ES dokumentai), ir palyginamasis, kurį sudarys angliški ir lietuviški originalūs tekstai (teisėkūros ir administraciniai dokumentai, akademinė literatūra, žiniasklaidos straipsniai ir kt.). Būtent iš šių tekstynų neuroniniai tinklai rinks angliškus ir lietuviškus terminus. Tekstus surinkti bei atrinkti tolimesniam tyrimui padeda MRU kibernetinio saugumo specialistas doc. dr. Marius Laurinaitis“.

Pasak S. Rackevičienės, kitas labai svarbus pirmojo projekto etapo darbas – auksinio standarto anotuotų tekstynų kūrimas nes neuroninių tinklų apmokymui būtini kokybiškai rankiniu būdu anotuoti (sužymėti) duomenys.

„Anotuojame mūsų programuotojo Aivaro specialiai projekto reikmėms sukurtu ir nuolat tobulinamu įrankiu QuickTag. Šis darbas labai atsakingas, todėl nuolat diskutuojame, tariamės dėl to kokius terminus priskirti kibernetinio saugumo sričiai, o kokius laikyti tik susijusiais su šia sritimi, kaip žymėti kelių terminų junginius ar terminus, į kuriuos įsiterpia kiti žodžiai, kaip anotuoti lietuviškuose tekstuose vartojamas angliškas santrumpas bei hibridus (angliškų santrumpų ir lietuviškų žodžių junginius) ir kt. Kuo kokybiškiau suanotuosime terminus, tuo tikslesnių ir išsamesnių rezultatų galime tikėtis iš neuroninių tinklų, kurie atpažins ir trauks terminus iš didelių tekstynų automatiniu būdu“, – sako prof. S. Rackevičienė.

Antrajame projekto etape yra numatyta, kad projekto kibernetinio saugumo specialistas Marius Laurinaitis padės atrinkti 300 svarbiausių angliškų terminų ir jų lietuviškų atitikmenų, iš kurių ir bus kuriama terminų duomenų bazė. Taip pat bus atlikta kibernetinio saugumo srities sąvokų sistemos analizę, kuri padės nustatyti sąvokų kategorijas ir jų tarpusavio ryšius, mat šios žinios yra būtinos norint tiksliai ir sistemiškai suformuluoti terminų apibrėžtis. Terminų aprašai duomenų bazėje bus papildyti terminų vartosenos pavyzdžiais bei statistiniais duomenimis. Tokiu būsu terminų bazė ne tik padės išsiversti terminą ir suprasti jo reikšmę, bet ir suteiks vartotojui žinių, kurie terminai dažniausi (tai ypač svarbu sinonimijos atvejais) ir kaip jie yra vartojami sakiniuose.

Pasak prof. Rackevičienės, vykdant terminologijos projektą, labai svarbu kuo daugiau bendradarbiauti su srities, kurios terminai tiriami, specialistais.

„Tikimės užmegzti bendradarbiavimą su Nacionaliniu kibernetinio saugumo centro atstovais. Jų konsultacijos būtų labai svarbios pirmajame etape renkant tekstui kuriamiems tekstynams bei antrajame etape – atrenkant terminus duomenų bazei be formuluojant jų apibrėžtis,“ – priduria pašnekovė.

Daugiau apie MRU ir VDU vykdomą kibernetinio saugumo terminų projektą, kurį apmoka Lietuvos mokslų taryba, galite sužinoti čia: https://klc.vdu.lt/dvitas/lt

Kategorijos: Kalba, Kultūra, Mokslas, Mokslo darbai, Visi įrašai | Žymos: , , , , , , , , , , , .
Skaityti komentarusKomentavimo taisyklės

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *

Taip pat skaitykite: