VDU mokslininkai vysto dirbtinio intelekto technologijų sprendimus lietuvių kalbai: kodai bus perduoti visuomenei

Reklama publikuota: 2019-09-25
svg svg

2018-aisiais Lietuva tapo viena pirmųjų ES narių, kuri ėmėsi oficialiai skatinti ir vystyti dirbtinio intelekto (DI) technologijas – parengė nacionalinę DI strategiją. Tačiau be lietuvių kalbos supratimo šių inovacijų negalėsime panaudoti svarbiausiose srityse – todėl valstybės užsakymu Vytauto Didžiojo universiteto (VDU) mokslininkai ėmėsi kurti ir modernizuoti kalbos technologijomis paremtus sprendimus. Naujovės – ne tik pažangios, atveriančios naujas galimybes verslui, valstybei, mokslui ir visuomenei, bet ir atviros tolesniam tobulinimui.

Automatinis sakytinės kalbos pavertimas į tekstą (transkripcija), santraukų formavimas, įžeidžios kalbos atpažinimas naujienų portalų komentaruose ir socialiniuose tinkluose – tai tik keletas iš dirbtinio intelekto (DI) sprendimų, kuriuos įgyvendina VDU tyrėjai, bendradarbiaujantys tarpdisciplininiame lietuvių kalbos technologijų projekte „Semantika2“.

nuotrauka::1 right

Kaip ir analogiški sprendimai, sukurti Stanfordo ar kituose prestižiniuose pasaulio universitetuose, projekte kuriamos ir tobulinamos paslaugos bus atviros prieigos – kitaip tariant, visi norintys galės nemokamai ir laisvai prieiti prie mokslininkų sukurtų technologijų kodo, jį tobulinti ir keisti. Pasak projekto vadovo, VDU Informatikos fakulteto Intelektinių sistemų laboratorijos vadovo doc. dr. Dariaus Amilevičiaus, inovacijomis patenkinami svarbūs valstybės poreikiai.

Nemokami naujienlaiškiai į savo el. pašto dėžutę:













Svarbiausios dienos naujienos trumpai:



 

„Pirma, projekte IT sprendimus realizuoja ekspertai, turintys aukštas tarpdisciplinines kompetencijas – čia bendradarbiauja informacinių technologijų, lingvistikos, teisės, medicinos, kompiuterinės lingvistikos ir kitų sričių specialistai. Antra, kadangi tai yra atvirojo kodo IT sprendimai, viešasis sektorius juos galės panaudoti kituose valstybiniuose projektuose, vengiant Lietuvos ir ES biudžeto švaistymo, o privačiame sektoriuje kūrėjai galės sparčiau ir pigiau vystyti produktus ir paslaugas, susijusias su komerciškai nepatrauklia lietuvių kalba“, – paaiškina kompiuterinės lingvistikos ekspertas.

Atviri kodai mokslui, verslui ir viešajam sektoriui

Tarp naujų elektroninių viešųjų paslaugų, kurias vysto „Semantika2“ tyrėjai – lietuvių kalbos fonogramų (garso įrašų) automatinis pavertimas į tekstą. Savaime suprantama, ši inovacija yra itin patogi norintiems sutaupyti laiko, pasitelkti technologijas užuot rašant tekstus patiems. Inovacija ypač pasitarnaus teisininkams, valstybės tarnautojams, medikams, kadangi pagal valstybės poreikius šis įrankis rengiamas dirbti ne tik su bendrine, bet ir su teisine, medicinine lietuvių kalba.

Analogiškai praktiškos ir automatinės dokumentų santraukos – ypač tiems, kuriems tenka peržiūrėti daug tekstų per trumpą laikotarpį. D. Amilevičiaus teigimu, duomenimis ir žiniomis grįstoje visuomenėje, kai informacijos kiekis gausėja eksponentiškai, svarbu turėti įrankius, kurie leistų efektyviausiai ją analizuoti, ypač ruošiantis svarbiems susitikimams ar priimant sprendimus.

Tyrėjai taip pat sukūrė įrankį, kuris gali automatiškai atpažinti ir pažymėti galimai įžeidžią arba neapykantos kalbą – pavyzdžiui, lietuviškuose naujienų portaluose arba socialiniuose tinkluose. VDU teisininkų atliktas tyrimas parodė, jog visame pasaulyje tokios kalbos identifikavimas yra sudėtinga problema, galinti sukelti cenzūros pavojų ar žodžio laisvės pažeidimus – dėl šios priežasties, galutinį sprendimą dėl automatiškai atrinktų komentarų tinkamumo turės priimti žmogus.

„Šio IT sprendimo panaudojimai yra daugialypiai – galima ne tik automatiškai identifikuoti vartotojų nuomones ar komentarus, kuriuose yra neapykantos apraiškos, bet ir automatiškai analizuoti duomenų sankaupas, jas rengiant mašininiam mokymui, kuriant DI technologijų sistemas. Iš šių sankaupų laiku nepašalinus neapykantos apraiškų, kyla grėsmė, kad mašina perims diskriminacinę elgseną – todėl duomenis būtina valyti, o tam būtini automatizuoti įrankiai, tokie kaip „Semantika2“ kuriamas sprendimas“, – įspėja doc. dr. D. Amilevičius.

Itin naudingais ištekliais taps taip vadinami „auksiniai standartai“ – tyrėjų sukurti principai, kaip kokybiškai taikyti mašininio (automatinio) mokymo technologijas lietuviško teksto morfologijos ir sintaksės analizėje. Projekto metu buvo ženkliai papildyti morfologijos ir sintaksės tekstynai – būtent jų dėka sukurti ir patobulinti DI sprendimai leido pasiekti itin aukštos kokybės rezultatus. Šie tekstynai po projekto pristatymo visuomenei bus viešai prieinami atviros prieigos saugyklose „Clarin-LT“ ir „GitHub“.

„Sudėtingiausias barjeras, kurį turi įveikti lietuvių kalbą suprantančio DI technologijų kūrėjai – sintaksė. Kaip teigia kalbos filosofai, kalbą supranta tik tas, kuris supranta sakinį. Šio barjero įveikimas leidžia atlikti kokybinį šuolį tikros semantinės analizės link. Anglų kalboje šia linkme jau ženkliai pasistūmėta. Nereikia pamiršti, kad lietuvių kalba ne tik komerciškai nepatraukli, bet jos sintaksė tokia sudėtinga, kad tampa tikru galvasopiu pakankamo lingvistinio išsilavinimo neturinčiam programinės įrangos kūrėjui“, – pažymi doc. dr. D. Amilevičius.

Tarp kitų projekto metu modernizuojamų IT sprendimų – ir automatinis lietuvių kalbos rašybos klaidų taisymas. Tenkinant valstybės iškeltą tikslą, šiuo sprendimu skatinamas atvirojo kodo biuro programinės įrangos naudojimas: klaidos tikrinamos „LibreOffice“ ir „OpenOffice“ programose. Rašybos klaidų tikrintuvus vartotojai gali nemokamai parsisiųsti „Windows“, „Linux“ arba „Apple“ operacinėms sistemoms. Pastarosiose dviejose sistemose klaidos bus tikrinamos ne tik minėtose, bet ir kitose teksto apdorojimo programose – „Windows“ yra išimtis, nes „Microsoft“ produktai naudoja nuosavą, uždarą kalbos palaikymo variklį.

Vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje

Pasak D. Amilevičiaus, Lietuvos vyriausybė šiandien skatina kalbos technologijomis grįstų paslaugų vystymą ir diegimą valstybiniame sektoriuje. Tačiau iššūkių dar netrūksta – ypač kalbant apie dirbtinio intelekto gebėjimą susitvarkyti su žmogaus kalba. Ši sritis DI dar yra keblesnė, nei gebėjimas pažinti objektus nuotraukose.

„Lietuvoje kuriamos ir vystomos DI technologijos daro daug puikių dalykų, bet visi pamiršta, kad be lietuvių kalbos supratimo jų negalėsime panaudoti tose srityse, kur iš jų laukiama didžiausia nauda – efektyvi didelių duomenų (kurių didžioji dalis – tekstai) analizė ir automatinis prognozių arba rekomendacijų formavimas“, – apibendrina projekto „Semantika2“ vadovas.

Projektas „Semantika2“ yra priemonės „Lietuvių kalba informacinėse technologijose“ dalis. Šią priemonę parengė Skaitmeninės darbotvarkės taryba prie LR Susisiekimo ministerijos – elektroniniams su kalbos technologijomis susijusiems valstybės poreikiams tenkinti. Projektą vykdo jungtinės tarpdisciplininės mokslininkų pajėgos – Vytauto Didžiojo universiteto (VDU) Humanitarinių mokslų, Informatikos ir Teisės fakultetų mokslininkai. Vienas iš sprendimų įgyvendinamas kartu su tyrėjais iš Kauno technologijos universiteto.

Tarp pagrindinių užduočių, kurias valstybė patikėjo VDU – ne tik minėtų pažangių atvirojo kodo IT sprendimų kūrimas, bet ir valstybinės kalbos technologijų informacinės sistemos (LKSSAIS) modernizavimas bei naujų elektroninių viešųjų kalbos technologijų debesijos paslaugų kūrimas. Prognozuojama, jog 2020 m. rudenį veikti pradėsianti modernizuota LKSSAIS bus vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje.

Tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ tarpinių rezultatų pristatymas vyks rugsėjo 27 d., penktadienį, 10 val., VDU mokslo ir studijų centre (V. Putvinskio g. 23-103). Renginys skirtas mokslo, verslo, viešojo sektoriaus auditorijai ir visuomenei.

Jo metu bus pristatyti tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ (Nr. 02.3.1-CPVA-V-527-01-0002) tarpiniai rezultatai: sukurti ir kuriami kalbos ištekliai, prototipai, jų galima nauda mokslui, verslui, viešajam sektoriui ir eiliniam vartotojui. Po renginio vartotojams bus pateiktos atviros prieigos saugyklose „GitHub“ ir „Clarin LT“.

Pasirinkite jus dominančias įmones ir temas – asmeniniu naujienlaiškiu informuosime iškart, kai jos bus minimos „Verslo žiniose“, „Sodros“, Registrų centro ir kt. šaltiniuose.

Pirmieji garso įrašai Marse atskleidė esant dvejopą garso greitį 1

Marse padaryti pirmieji garso įrašai rodo, kad planetoje tvyro tyla, retkarčiais paįvairinama vėjo gūsių,...

Inovacijos
2022.04.01
Technologijų miestelio „Cyber City“ statybos Vilniaus Naujamiestyje artėja prie pabaigos 1

Sostinės Naujamiestyje, buvusioje „Spartos“ fabriko teritorijoje, kylančio technologijų miestelio „Cyber...

Statyba ir NT
2022.04.01
R. Rainys: neapsaugota organizacija anksčiau ar vėliau tampa kibernetinės atakos auka Premium

Dirbant Nacionaliniame kibernetinio saugumo centre (NKSC) kartais būdavo apmaudu, jog verslas ir kitos...

Inovacijos
2022.04.01
Estijoje uždraudžiama „Yandex“ veikla

Estijos vyriausybė patvirtino nacionalines sankcijas Rusijos kapitalo bendrovei „Yandex“ – jos tiesioginė ar...

Inovacijos
2022.04.01
„Fintech“ bendrovių Lietuvoje pernai padaugėjo 13%, pritrauktos rekordinės investicijos

Lietuvos „fintech“ sektorius praėjusiais metais pritraukė rekordinį investicijų skaičių, bendrovių per 2021...

Inovacijos
2022.04.01
Paskelbtas svarbiausias 5G dažnių aukcionas

Ryšių reguliavimo tarnyba (RRT) paskelbė 3,5 GHz juostos dažnių, numatytų komercinio 5G mobiliojo ryšio...

Inovacijos
2022.04.01
Specialistų trūksta, alga ne per didžiausia: stringa Kibernetinio saugumo centro vadovo paieška Premium 1

Krašto apsaugos ministerijai (KAM) kol kas sunkiai sekasi surasti naująjį Nacionalinio kibernetinio saugumo...

Inovacijos
2022.04.01
JAV nusitaikė į Rusijos technologijų įmones, sankcionavo didžiausią lustų gamintoją 1

Jungtinės Valstijos ketvirtadienį paskelbė sankcijas kelioms Rusijos technologijų įmonėms, įskaitant...

Inovacijos
2022.03.31
Pasaulis gręžiasi nuo Rusijos IT bendrovių, jų įrangą vis dar naudoja Lietuvos įstaigos Premium 3

Iš Rusijos kilusios IT bendrovės, kaip „Kaspersky“ ar „Yandex“, pastarąjį mėnesį atsidūrė po Vakarų...

Inovacijos
2022.03.31
Lietuvos žaidimų industrija: iškart galėtume įdarbinti 100 darbuotojų

Žaidimų industrija Lietuvoje šiuo metu yra pajėgi plėstis dar ketvirtadaliu, tačiau susiduriama su talentų...

Inovacijos
2022.03.31
„Inbalance“ gavo 1,5 mln. Eur finansavimą, įrengs 640 elektromobilių įkrovimo stotelių

Investicijų bendrovės „I asset management“ fondas „NuCapital“‚ suteikė 1,5 mln. Eur paskolą, kurią per...

Automobiliai
2022.03.31
Po rekordinių metų startuoliams – investicijų štilis, bet laukiama kelių stambių sandorių Premium

Per pirmąjį metų ketvirtį penki Lietuvos startuoliai, remiantis viešai skelbtais duomenimis, pritraukė apie...

Inovacijos
2022.03.31
Po kibernetinės atakos „Rosaviacija“ bando surasti 65 TB ištrintų duomenų 4

Pasak pranešimų, strateginė Rusijos aviacijos agentūra prarado visus savo serveriuose laikytus duomenis,...

Logistika
2022.03.30
R. Rainys – apie kibernetinį saugumą, sąsajas tarp kriptovaliutų ir „ransomware“ bei „Yandex. Taxi“ Lietuvoje Premium 3

Rytis Rainys, kadenciją baigiantis Nacionalinio kibernetinio saugumo centro (NKSC) vadovas, sako, jog nuo...

Inovacijos
2022.03.30
Estijoje ketinama uždrausti „Yandex“

Estijos verslumo ir informacinių technologijų ministerija pranešė teiksianti vyriausybei siūlymą uždrausti...

Inovacijos
2022.03.30
VLK kibernetinį atsparumą stiprina bendradarbiaudama su „NRD Cyber Security“ Verslo tribūna

Valstybinė ligonių kasa prie Sveikatos apsaugos ministerijos (VLK) užtikrina sveikatos priežiūrą,...

2022.03.30
Ekspertai perspėja apie augantį kibernetinių atakų pavojų

Greta Rusijos vykdomos invazijos į Ukrainą, vyksta ir plataus masto informacinis karas, teigia tarptautinė...

Inovacijos
2022.03.29
„Fintech“ bendrovė „Woolsocks“ plečiasi Vilniuje

Nyderlandų kapitalo finansinių technologijų inovatorė „Woolsocks“ ketina plėsti Vilniaus komandą. Sukūrusi...

Inovacijos
2022.03.29
JK priveria kriptokioską: rizikos zonoje atsidūrė net „Revolut“ Premium 2

Jungtinėje Karalystėje, kaip ir didžiojoje dalyje pasaulio, kriptopaslaugos yra mažai arba visiškai...

Inovacijos
2022.03.29
JAV įtraukė „Kaspersky“ į grėsmių sąrašą

JAV reguliuotoja Rusijos kibernetinio saugumo programinės įrangos gamintoją „Kaspersky“ pripažino grėsme...

Inovacijos
2022.03.29

Verslo žinių pasiūlymai

Šioje svetainėje naudojame slapukus (angl. „cookies“). Jie padeda atpažinti prisijungusius vartotojus, matuoti auditorijos dydį ir naršymo įpročius; taip mes galime keisti svetainę, kad ji būtų jums patogesnė.
Valdyti Sutinku