Atviri duomenys: nuo nuomonės formuotojų įtakos rinkimams iki jaunimo būsto pasirinkimų

Iki 2026 m. Valstybės duomenų agentūra planuoja inventorizuoti visų valstybės įstaigų valdomus registrus ir informacines sistemas, su jomis sukurti nuolat veikiančias jungtis, gauti reguliarias duomenų kopijas, jas naudoti, dalytis ir dalį duomenų atverti. Tai svarbu mokslininkams, studentams, politikams, žurnalistams, visuomenei, verslui ir net pačioms valstybės institucijoms.
Šis darbas apima apie 400 valstybės registrų ir informacinių sistemų, kurias valdo apie 150 institucijų. Agentūra savo duomenis jau padėjo atverti 30 institucijų.
„Atverti duomenys netruks sulaukti populiarumo, o jų naudojimas užaugins ne tik egzotiškų vaisių, bet ir keis mokslo, švietimo, politikos, žiniasklaidos, diskusijų kultūrą. Valstybė taps efektyvesnė, atsparesnė krizėms ir grėsmėms, nes tiksliai žinosime, kokių duomenų turime. Sprendimams priimti reikalingi duomenys bus centralizuoti, greičiau ir lengviau panaudojami, taps vientisa valstybės duomenų ekosistema“, – pabrėžia dr. Jūratė Petrauskienė, Valstybės duomenų agentūros generalinė direktorė.
Ką reiškia „atverti duomenis“
Valstybės duomenų agentūra pabrėžia, kad atviri duomenys jokiu būdu nereiškia, jog atveriami jautrūs asmens duomenys. Atviri duomenys yra išsamūs, bet nepavojingi. Kiekvienam, kas moka elgtis su duomenimis, jie leidžia apskaičiuoti daug dar neegzistuojančių rodiklių, kurie aprašo šalyje vykstančius procesus.
Kad galima būtų geriau suvokti, kas yra atviri duomenys, pateikiame tris lenteles. Pirmoje yra jautrių asmens duomenų (netikras) pavyzdys, antroje – atvirų duomenų pavyzdys. Atviri duomenys yra nuasmeninti (jautrūs identifikatoriai yra pseudonimizuojami, detalios reikšmės suapvalinamos ir pan.) ir viešai publikuojami atviraisiais formatais, pritaikytais automatizuotam nuskaitymui, juos gali naudoti visi. Trečioji – įprasta statistinės informacijos lentelė.

Iš įvairių sričių
Valstybės duomenų agentūros darbuotojai pažymi, kad atviri duomenys leidžia analizuoti įvairiausias sritis ir temas: demografijos, rinkimų, sveikatos, darbo rinkos, švietimo, mokesčių, energetikos, eksporto, taršos, nusikalstamumo, nekilnojamojo turto, judumo ir daug kitų. Per paskutinius kelerius metus jiems teko susidurti su ne vienu naudingu ar įdomiu atvirų duomenų panaudojimu.
Skiepai ir virusai
Atverti vakcinacijos ir susirgimų duomenys gali parodyti, kad pandemijos metu tikimybė susirgti COVID-19 liga (ar nuo jos mirti) buvo daug kartų didesnė, jei asmuo buvo nepasiskiepijęs. Svarbu ir tai, kad atverti detalūs duomenys rodo, jog skiepai nuo COVID-19 ligos niekaip nepadidino mirtingumo (skirtingai, nei teigia skiepų priešininkai).

Duomenų mėgėjai gali rasti duomenų rinkinius, rodančius, kad perteklinis mirtingumas populiacijoje buvo išaugęs ne tik COVID-19 pandemijos metu, tačiau ir 2007 m. vasario–gegužės mėnesiais. Galima daryti prielaidą, kad ir tuomet Lietuvoje turėjome paslaptingą virusinę epidemiją, nors visuomenė jos ir nepastebėjo. (Žemiau esantis grafikas rodo padidėjusį mirtingumą 2007 m. vasario–gegužės mėn.).

Vardai ir visuomenės konservatyvumas
Pasak Valstybės duomenų agentūros analitikų, atvertus duomenis galima analizuoti daugeliu netikėtų aspektų, apie kuriuos retai pagalvoja jau ilgai oficialiosios statistikos srityje dirbantys specialistai. Pavyzdžiui, vardų dažniai gali papasakoti apie visuomenės konservatyvumą ir šalies istoriją.

Didesnė vardų įvairovė sufleruoja, kad gyventojai, dovanodami vardą savo palikuoniui, daugiau vadovaujasi tradicijomis, t. y. visuomenė yra labiau konservatyvi. Agentūros analitikų pateiktas pavyzdys vaizduoja Lietuvos gyventojų ir karo pabėgėlių iš Ukrainos vardų dažnių duomenis. Akivaizdu, kad Ukrainos visuomenė yra konservatyvesnė nei Lietuvos. Taip pat matyti, kaip bėgant laikui, šios abi visuomenės liberalėja, ypač akivaizdžiai tai matoma Ukrainos visuomenėje. Taip pat įdomu tai, kad vyresnio amžiaus populiacijoje pastebimas didesnis skirtumas tarp lyčių.
Nuomonės formuotojų įtaka rinkimams
Kitas pavyzdys – iš politikos srities. Atvirų duomenų analizė leidžia pastebėti, kokią įtaką nuomonės formuotojų elgesys daro rinkimų rezultatams. Pavyzdžiui, 2016 m. rinkimų į Seimą metu tinklaraštininkas Rokiškis Rabinovičius (Ričardo Savukyno slapyvardis) patarė, kuriuos TS?LKD, LSDP ir Liberalų sąjūdžio kandidatus į Seimą reitinguoti pirmumo balsais. Išanalizavus balsavimo rezultatus, galima daryti statistiškai pagrįstą išvadą, kad į šias rekomendacijas atsižvelgė apie 14 tūkst. TS-LKD rinkėjų, apie 4 tūkst. Liberalų sąjūdžio ir apie 600 LSDP rinkėjų. Taip pat galima statistiškai pagrįstai įrodyti, kad apie 1 700 rinkėjų kandidatus pasirinko vien todėl, kad kandidatai buvo moterys.
2016 m. rinkimų duomenų analizė taip pat parodo, kad dalis rinkėjų nereitinguoja kandidatų vadovaudamiesi politinėmis simpatijomis, o į biuletenį įrašo skaitine išraiška tendencingus kandidatų numerius, pvz., 99, 100, 101, 102, 103 arba 1, 2, 11, 12, 22 ar pan. Toks elgesys į rinkimų rezultatams suteikia neinformatyvaus, piliečių valios neišreiškiančio triukšmo. Žemiau pateikiame dažnai pasikartojančias skaičių kombinacijas.

VERSLO TRIBŪNA
Ir tai tik kelios iliustracijos, kaip gali būti naudojami atviri duomenys. Institucijos yra skatinamos duomenis atverti centralizuotai Lietuvos atvirų duomenų portale (https://data.gov.lt/), o tai padaryti joms gali padėti Valstybės duomenų agentūra.
Mažina užklausų skaičių
Viešajam sektoriui duomenų atvėrimas sumažins užklausų dėl duomenų pateikimo skaičių. Tokias užklausas kasdien siunčia verslas, žiniasklaida, gyventojai. Atviri duomenys sulaukia studentų susidomėjimo, nes jau dabar mokydamiesi jie gali analizuoti įdomius, dėstytojų neišgalvotus duomenis.
Nauji duomenų šaltiniai svarbūs ir mokslo bendruomenei bei įvairių sričių ekspertams. Norint naudoti šiuos šaltinius, reikia minimalių duomenų analizės žinių – pavyzdžiui mokėti naudotis „MS Excel“ ar kita programa (duomenų analitikai naudoja R, Python, SPSS).
Atveriama vis daugiau rinkinių
Atveriamų duomenų spektras itin platus. Pavyzdžiui, informacija, kur yra mokyklos, kiek jose mokosi moksleivių, kiek moksleivių savo mokyklą gali pasiekti per 15 min., gali praversti formuojant mokyklų tinklą. AB „Litgrid“ Lietuvos atvirų duomenų portalui pateikti skaičiai rodo, kiek Lietuva kiekvieną dieną skirtingais būdais pagamina elektros energijos. Skaičiai taip pat rodo, kad apie pusę elektros energijos dar turime importuoti.
Lietuvos reljefo duomenys gali patarti, kur statyti vėjo jėgaines ar net hidroelektrines. Gyventojų ir būstų surašymo duomenys naudingi teritorijų planuotojams. Jie rodo įvairias gyventojų vidinės migracijos tendencijas. Pavyzdžiui, iš jų matyti, kad aplink didžiuosius miestus mėgsta kurtis jaunesni (iki 35 m. amžiaus) gyventojai. Jie gali padėti priimti sprendimus dėl verslo investicijų, darbo vietų kūrimo, nekilnojamojo turto ir socialinės infrastruktūros plėtros.
Šiuo metu per agentūros valdomą duomenų ekosistemą jau yra atverta daug Valstybinės mokesčių inspekcijos duomenų. Galima analizuoti įvairius rodiklius: asmenis, dirbančius pagal individualią veiklą, nekilnojamojo turto, žemės mokesčius, gyventojų pajamų mokesčio mokėjimą. Jau atverta ir informacija apie bankrotus bei restruktūrizaciją. Galima rasti Lietuvos hidrometeorologijos tarnybos duomenis apie klimato kaitą, Aplinkos apsaugos agentūros – apie oro ir ežerų ekologinę būklę. Atverti ir Bendrojo pagalbos centro duomenys apie bendruoju pagalbos numeriu 112 gautus pranešimus ir jų lokalizaciją. Taip pat prieinami Valstybinės akreditavimo sveikatos priežiūros veiklai tarnybos kaupiami sveikatos priežiūros įstaigų licencijų duomenys, Geologijos tarnybos surinkta informacija apie gamtos ir naudinguosius išteklius ir daugelis kitų duomenų. Šiuo metu yra atverta beveik du tūkstančiai duomenų rinkinių ir šis skaičius nuolat auga.