VDU įgyvendina projektą „Didžiojo lietuvių kalbos garsyno sukūrimas”

563

2024 m. liepos 29 d. pasirašyta projekto „Didžiojo lietuvių kalbos garsyno sukūrimas“ (LIEPA-3) finansavimo sutartis. Projekto pareiškėjas – Vilniaus universitetas (VU), projekto partneriai: Vytauto Didžiojo universitetas (VDU) ir Lietuvių kalbos institutas.

Projekto tikslas – sudaryti galimybes ir geresnes sąlygas skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams, kuriant pažangias skaitmenines paslaugas visuomenei.

Numatoma, kad projekto metu bus sukurtas 10 tūkst. valandų apimties anotuotas lietuvių kalbos garsynas (iš jų: 5000 val. skaitytinės šnekos stiliumi, 4900 val. – spontaninės šnekos stiliumi, 100 val. – pagrindinių Lietuvos tarmių kalba), skirtas pirmiausia šnekos atpažinimo, o taip pat ir kitoms inovatyvioms dirbtinio intelekto (DI) technologijoms plėtoti. Garsyno įrašai bus saugomi/laisvai platinamu atviruoju formatu. Garsynas bus pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.), Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.

Anotuotas garsynas yra šnekos atpažinimo bei kitų susijusių dirbtinio intelekto technologijų pagrindas. Anotuotas garsynas – tai nėra tik garso įrašų sankaupa, bet susieti garso įrašų ir juos atitinkančių tekstų pavyzdžiai, iš kurių DI algoritmai gali išmokti atlikti darbą – automatiškai paversti naujus, nematytus garso įrašus tekstu. Kuo didesnė pavyzdžių (garsyno) apimtis ir įvairovė, tuo tikslesnį ir žmogui priimtiną rezultatą duoda DI technologijos. Garsynų apimtis kitoms labiau paplitusioms kalboms jau seniai viršijo 10 tūkst. valandų ribą, tuo tarpu lietuvių kalba neturi tokios apimties, detalaus, įvairiapusio ir viešai prieinamo anotuoto garsyno, kuris atspindėtų įvairias kalbos vartojimo sritis. Taigi, šis projektas užpildys spragą, skiriančią lietuvių kalbą nuo kitų technologiškai pažengusių kalbų.

Tikimasi, kad projekto įgyvendinimo metu sukurtas rezultatas ir jo dėka plėtojamos naujos kalbos įvestį naudojančios technologijos užtikrins lietuvių šnekos aktyvų gyvavimą pasaulio elektroninėje terpėje, supaprastins darbo eigą ir padės našiau dirbti, pagerins sąveiką su skaitmeninių elektroninių paslaugų naudotojais ir pagerins bendrą naudotojų patirtį, gaunant ir teikiant paslaugas, didins e. paslaugų prieinamumą ir brandos lygį, mažins socialinę atskirtį, priartins DI technologijas prie visuomenės.

Projekto įgyvendinimas:

Projekto biudžetas: 4 015 289,49 EUR (su PVM);
Projekto kodas: Nr. 02-023-K-0001;
Projekto veiklų įgyvendinimo pradžia: 2024 m. liepos 29 d.;
Projekto veiklų įgyvendinimo pabaiga: 2026 m. balandžio 30 d.

Už projekto įgyvendinimą universitete atsakingas VDU Skaitmeninių išteklių ir tarpdisciplininių tyrimų institutas.

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“.