VDU mokslininkai vysto dirbtinio intelekto technologijų sprendimus lietuvių kalbai: kodai bus perduoti visuomenei

Publikuota: 2019-09-25

2018-aisiais Lietuva tapo viena pirmųjų ES narių, kuri ėmėsi oficialiai skatinti ir vystyti dirbtinio intelekto (DI) technologijas – parengė nacionalinę DI strategiją. Tačiau be lietuvių kalbos supratimo šių inovacijų negalėsime panaudoti svarbiausiose srityse – todėl valstybės užsakymu Vytauto Didžiojo universiteto (VDU) mokslininkai ėmėsi kurti ir modernizuoti kalbos technologijomis paremtus sprendimus. Naujovės – ne tik pažangios, atveriančios naujas galimybes verslui, valstybei, mokslui ir visuomenei, bet ir atviros tolesniam tobulinimui.

Automatinis sakytinės kalbos pavertimas į tekstą (transkripcija), santraukų formavimas, įžeidžios kalbos atpažinimas naujienų portalų komentaruose ir socialiniuose tinkluose – tai tik keletas iš dirbtinio intelekto (DI) sprendimų, kuriuos įgyvendina VDU tyrėjai, bendradarbiaujantys tarpdisciplininiame lietuvių kalbos technologijų projekte „Semantika2“.

nuotrauka::1 right

Kaip ir analogiški sprendimai, sukurti Stanfordo ar kituose prestižiniuose pasaulio universitetuose, projekte kuriamos ir tobulinamos paslaugos bus atviros prieigos – kitaip tariant, visi norintys galės nemokamai ir laisvai prieiti prie mokslininkų sukurtų technologijų kodo, jį tobulinti ir keisti. Pasak projekto vadovo, VDU Informatikos fakulteto Intelektinių sistemų laboratorijos vadovo doc. dr. Dariaus Amilevičiaus, inovacijomis patenkinami svarbūs valstybės poreikiai.

„Pirma, projekte IT sprendimus realizuoja ekspertai, turintys aukštas tarpdisciplinines kompetencijas – čia bendradarbiauja informacinių technologijų, lingvistikos, teisės, medicinos, kompiuterinės lingvistikos ir kitų sričių specialistai. Antra, kadangi tai yra atvirojo kodo IT sprendimai, viešasis sektorius juos galės panaudoti kituose valstybiniuose projektuose, vengiant Lietuvos ir ES biudžeto švaistymo, o privačiame sektoriuje kūrėjai galės sparčiau ir pigiau vystyti produktus ir paslaugas, susijusias su komerciškai nepatrauklia lietuvių kalba“, – paaiškina kompiuterinės lingvistikos ekspertas.

Atviri kodai mokslui, verslui ir viešajam sektoriui

Tarp naujų elektroninių viešųjų paslaugų, kurias vysto „Semantika2“ tyrėjai – lietuvių kalbos fonogramų (garso įrašų) automatinis pavertimas į tekstą. Savaime suprantama, ši inovacija yra itin patogi norintiems sutaupyti laiko, pasitelkti technologijas užuot rašant tekstus patiems. Inovacija ypač pasitarnaus teisininkams, valstybės tarnautojams, medikams, kadangi pagal valstybės poreikius šis įrankis rengiamas dirbti ne tik su bendrine, bet ir su teisine, medicinine lietuvių kalba.

Analogiškai praktiškos ir automatinės dokumentų santraukos – ypač tiems, kuriems tenka peržiūrėti daug tekstų per trumpą laikotarpį. D. Amilevičiaus teigimu, duomenimis ir žiniomis grįstoje visuomenėje, kai informacijos kiekis gausėja eksponentiškai, svarbu turėti įrankius, kurie leistų efektyviausiai ją analizuoti, ypač ruošiantis svarbiems susitikimams ar priimant sprendimus.

Tyrėjai taip pat sukūrė įrankį, kuris gali automatiškai atpažinti ir pažymėti galimai įžeidžią arba neapykantos kalbą – pavyzdžiui, lietuviškuose naujienų portaluose arba socialiniuose tinkluose. VDU teisininkų atliktas tyrimas parodė, jog visame pasaulyje tokios kalbos identifikavimas yra sudėtinga problema, galinti sukelti cenzūros pavojų ar žodžio laisvės pažeidimus – dėl šios priežasties, galutinį sprendimą dėl automatiškai atrinktų komentarų tinkamumo turės priimti žmogus.

„Šio IT sprendimo panaudojimai yra daugialypiai – galima ne tik automatiškai identifikuoti vartotojų nuomones ar komentarus, kuriuose yra neapykantos apraiškos, bet ir automatiškai analizuoti duomenų sankaupas, jas rengiant mašininiam mokymui, kuriant DI technologijų sistemas. Iš šių sankaupų laiku nepašalinus neapykantos apraiškų, kyla grėsmė, kad mašina perims diskriminacinę elgseną – todėl duomenis būtina valyti, o tam būtini automatizuoti įrankiai, tokie kaip „Semantika2“ kuriamas sprendimas“, – įspėja doc. dr. D. Amilevičius.

Itin naudingais ištekliais taps taip vadinami „auksiniai standartai“ – tyrėjų sukurti principai, kaip kokybiškai taikyti mašininio (automatinio) mokymo technologijas lietuviško teksto morfologijos ir sintaksės analizėje. Projekto metu buvo ženkliai papildyti morfologijos ir sintaksės tekstynai – būtent jų dėka sukurti ir patobulinti DI sprendimai leido pasiekti itin aukštos kokybės rezultatus. Šie tekstynai po projekto pristatymo visuomenei bus viešai prieinami atviros prieigos saugyklose „Clarin-LT“ ir „GitHub“.

„Sudėtingiausias barjeras, kurį turi įveikti lietuvių kalbą suprantančio DI technologijų kūrėjai – sintaksė. Kaip teigia kalbos filosofai, kalbą supranta tik tas, kuris supranta sakinį. Šio barjero įveikimas leidžia atlikti kokybinį šuolį tikros semantinės analizės link. Anglų kalboje šia linkme jau ženkliai pasistūmėta. Nereikia pamiršti, kad lietuvių kalba ne tik komerciškai nepatraukli, bet jos sintaksė tokia sudėtinga, kad tampa tikru galvasopiu pakankamo lingvistinio išsilavinimo neturinčiam programinės įrangos kūrėjui“, – pažymi doc. dr. D. Amilevičius.

Tarp kitų projekto metu modernizuojamų IT sprendimų – ir automatinis lietuvių kalbos rašybos klaidų taisymas. Tenkinant valstybės iškeltą tikslą, šiuo sprendimu skatinamas atvirojo kodo biuro programinės įrangos naudojimas: klaidos tikrinamos „LibreOffice“ ir „OpenOffice“ programose. Rašybos klaidų tikrintuvus vartotojai gali nemokamai parsisiųsti „Windows“, „Linux“ arba „Apple“ operacinėms sistemoms. Pastarosiose dviejose sistemose klaidos bus tikrinamos ne tik minėtose, bet ir kitose teksto apdorojimo programose – „Windows“ yra išimtis, nes „Microsoft“ produktai naudoja nuosavą, uždarą kalbos palaikymo variklį.

Vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje

Pasak D. Amilevičiaus, Lietuvos vyriausybė šiandien skatina kalbos technologijomis grįstų paslaugų vystymą ir diegimą valstybiniame sektoriuje. Tačiau iššūkių dar netrūksta – ypač kalbant apie dirbtinio intelekto gebėjimą susitvarkyti su žmogaus kalba. Ši sritis DI dar yra keblesnė, nei gebėjimas pažinti objektus nuotraukose.

„Lietuvoje kuriamos ir vystomos DI technologijos daro daug puikių dalykų, bet visi pamiršta, kad be lietuvių kalbos supratimo jų negalėsime panaudoti tose srityse, kur iš jų laukiama didžiausia nauda – efektyvi didelių duomenų (kurių didžioji dalis – tekstai) analizė ir automatinis prognozių arba rekomendacijų formavimas“, – apibendrina projekto „Semantika2“ vadovas.

Projektas „Semantika2“ yra priemonės „Lietuvių kalba informacinėse technologijose“ dalis. Šią priemonę parengė Skaitmeninės darbotvarkės taryba prie LR Susisiekimo ministerijos – elektroniniams su kalbos technologijomis susijusiems valstybės poreikiams tenkinti. Projektą vykdo jungtinės tarpdisciplininės mokslininkų pajėgos – Vytauto Didžiojo universiteto (VDU) Humanitarinių mokslų, Informatikos ir Teisės fakultetų mokslininkai. Vienas iš sprendimų įgyvendinamas kartu su tyrėjais iš Kauno technologijos universiteto.

Tarp pagrindinių užduočių, kurias valstybė patikėjo VDU – ne tik minėtų pažangių atvirojo kodo IT sprendimų kūrimas, bet ir valstybinės kalbos technologijų informacinės sistemos (LKSSAIS) modernizavimas bei naujų elektroninių viešųjų kalbos technologijų debesijos paslaugų kūrimas. Prognozuojama, jog 2020 m. rudenį veikti pradėsianti modernizuota LKSSAIS bus vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje.

Tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ tarpinių rezultatų pristatymas vyks rugsėjo 27 d., penktadienį, 10 val., VDU mokslo ir studijų centre (V. Putvinskio g. 23-103). Renginys skirtas mokslo, verslo, viešojo sektoriaus auditorijai ir visuomenei.

Jo metu bus pristatyti tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ (Nr. 02.3.1-CPVA-V-527-01-0002) tarpiniai rezultatai: sukurti ir kuriami kalbos ištekliai, prototipai, jų galima nauda mokslui, verslui, viešajam sektoriui ir eiliniam vartotojui. Po renginio vartotojams bus pateiktos atviros prieigos saugyklose „GitHub“ ir „Clarin LT“.

Gauk nemokamą TECHNOLOGIJŲ savaitraštį į savo el.pašto dėžutę:

Pasirinkite Jus dominančius NEMOKAMUS savaitraščius:













Svarbiausios dienos naujienos trumpai:



 
Rašyti komentarą 0
Garso technikos paroda stebina lietuviškais gaminiais Premium

Lapkričio 22–24 d. Vilniuje, „Radisson Blu Hotel Lietuva“, rengiamoje IX tarptautinėje Hi-Fi garso technikos...

Laisvalaikis
11:45
Seimas parlamentarams iš „Telios“ nupirko 180 „prekybos terminalų“ Premium 3

Beveik tris Seimo kadencijas atlaikiusius posėdžių salės „IBM ThinkPad X60“ kompiuterius „Telia“, kuri...

Paslaugos
05:45
„Google“ griežtina politinės reklamos sąlygas Premium

JAV kompanija „Google“ nusprendė įvesti apribojimus tikslinei politinei reklamai – reklamdaviai nebegalės...

Verslo aplinka
2019.11.21
Biurų darbuotojus sportuoti skatinantis „OnePass“ pritraukė 160.000 Eur investiciją 1

Viena narystė – visi sporto klubai. Tokią idėją siekiantis įgyvendinti startuolis „OnePass“ (UAB „Sporto...

Paslaugos
2019.11.21
Lietuvos lazerių įmonės žengia gilyn į pramonės sektorių Premium 2

Pastarosiomis dienomis kelios Lietuvos lazerių bendrovės pranešė apie bebaigiamus pramoninių inovacijų...

Technologijos
2019.11.21
Vilniaus universitete bus dėstoma kibernetinė sauga

Vilniaus universitetas (VU), bendradarbiaudamas su Izraelio kibernetinio saugumo bendrove „Check Point“,...

Paslaugos
2019.11.20
„Alibaba“ Honkongo biržoje gali pritraukti iki 12,9 mlrd. USD

Kinijos elektroninės prekybos milžinė „Alibaba“ per akcijų platinimą Honkongo vertybinių popierių biržoje...

Rinkos
2019.11.20
Apžvalga: Lietuvos startuolių ekosistema auga sparčiau už latvių ir estų

Tarp 3 Baltijos šalių Lietuvoje rizikos kapitalo investicijų augimas yra didžiausias – Estiją lenkiame 47%, o...

Paslaugos
2019.11.20
„Plačiajuostis internetas“ nutraukė 20 mln. Eur vertės ryšio bokštų konkursus

Įsiteisėjus teismo sprendimui, viešoji įstaiga „Plačiajuostis internetas“ nutraukė tris daugiau nei 20...

Technologijos
2019.11.20
JAV kapitalo įmonės idėja – sukurti asmeninę sveikatos sistemą Premium

Prieš penkerius metus Lietuvoje įsteigta JAV programinės įrangos kūrėjos „Exadel Inc“ antrinė įmonė „Exadel...

Pramonė
2019.11.20
„Google“ įžengė į 150 mlrd. USD vertės vaizdo žaidimų rinką

Antradienį interneto milžinė „Google“ pristatė naują žaidimų transliavimo platformą „Stadia“, taip įkeldama...

Paslaugos
2019.11.19
I. Laursas kuria investavimo platfomą: siūlys tokenizuoti NT Premium 5

Verslininkas ir investuotojas Ilja Laursas kuria sutelktinio finansavimo platformą „Oz finance“, kuri, kaip...

Rinkos
2019.11.19
CRM sąsiuvinyje išmanios sistemos neatstos, bet reikia tvarkingų procesų Premium

Jeigu verslo organizacijos procesai nesutvarkyti, verslo valdymo sistema mažai kuo padės, todėl kuriantieji...

Gazelė
2019.11.19
Čekijos planuose – skaitmeninis mokestis „Google“ ir „Facebook“

Čekijos vyriausybė pritarė siūlymui įvesti 7% skaitmeninio verslo mokestį, kuriuo siekiama padidinti...

Rinkodara
2019.11.19
HP atmetė „Xerox“ įsigijimo pasiūlymą  Premium

Bendrovė HP (dalis buvusios „Hewlett Packard“), atmetė „Xerox“ pasiūlymą įsigyti kompaniją už 33,5 mlrd. USD...

Technologijos
2019.11.19
„Qoorio“ pritraukė 2 mln. Eur investiciją ir startuoja Jungtinėje Karalystėje

Lietuvių sukurta žinių dalijimosi platforma „Qoorio“ pritraukė 2 mln. Eur investiciją produkto vystymui ir...

Paslaugos
2019.11.18
Pasaulyje pirmaujančių FinTech inovatorių reitinge - vienintelė Lietuvos įmonė Verslo tribūna 4

Tarptautinė audito, mokesčių ir verslo konsultacijų bendrovė KPMG kartu su rizikos kapitalo investicijų fondu...

Finansai
2019.11.18
Blokų grandinė: finansų paslaugų sektorių prislėgė nusivylimas Premium 3

Blokų grandinės technologija turėjo išstumti bankus ir suteikti galimybę pasauliui „pačiam būti (savo)...

Technologijos
2019.11.17
„Amazon“ užginčijo „Microsoft“ laimėtą 10 mlrd. USD vertės kontraktą 1

„Amazon Web Services“ (AWS) pranešė užginčijusi sprendimą 10 mlrd. USD JAV Gynybos departamento viešųjų...

Technologijos
2019.11.15
Papildytosios realybės akiniai grįžta, bet tik į verslo sektorių Premium

Kartu su pirma „Google Glass“ versija prieš keletą metų vos nenumirusi papildytosios realybės akinių...

Technologijos
2019.11.14

Verslo žinių pasiūlymai

Šioje svetainėje naudojame slapukus (angl. „cookies“). Jie padeda atpažinti prisijungusius vartotojus, matuoti auditorijos dydį ir naršymo įpročius; taip mes galime keisti svetainę, kad ji būtų jums patogesnė.
Sutinku Plačiau