Duomenų bazė lietuvių kalbos pastoviesiems junginiams
Author | Affiliation | |||
---|---|---|---|---|
LT | ||||
LT | ||||
LT | ||||
Date |
---|
2017 |
Vykdant projektą „Lietuvių kalbos pastoviųjų žodžių junginių automatinis atpažinimas (PASTOVU)“ (nr. LIP-027/2016) (žr. http://mwe.lt/), siekiama sukurti dabartinės rašytinės lietuvių kalbos pastoviųjų žodžių junginių tyrimo metodiką, parengti tekstynu paremtą lietuvių kalbos kolokacijų žodyną. Projekte sudarytas ir naudojamas 2014–2016 m. Delfi.lt tekstynas, į jį įeina 12 tekstų kategorijų: DELFI veidas, projektai, DELFI mokslas, DELFI auto, sportas, DELFI gyvenimas, DELFI žmonės, DELFI pilietis, verslas ir kt. Tekstyno apimtis – 72 mln. žodžių. Kolokacijų žodynas bus rengiamas remiantis duomenų baze. Joje bus pateikta įvairialypė informacija apie pastoviuosius junginius: gramatinė, leksinė informacija, vartosenos dažnumas, teksto rubrika, konkordanso pavyzdžiai ir pan. Iš duomenų bazės bus galima pasirinkti reikalingą informaciją kolokacijų žodynui ar kitam leksikografiniam darbui. Šiuo metu duomenų bazėje sukelti visi dvižodžiai pastovieji junginiai, kurie buvo pažymėti bandomajame tekstyne (tai minėto tekstyno dalis – 72 tūkst. žodžių). Iš viso yra apie 2700 lemų (antraštinių formų) ir daugiau nei 35 000 kaitybinių formų. Prieš tai tekstynas buvo automatiškai morfologiškai anotuotas, tik taip buvo gãlima skirtingas to paties junginio kaitybines formas suvesti į vieną lemą. Naudojamos Universal Dependency gramatinės pažymos (žr. http://universaldependencies.org/u/pos/). Visas anotuotas tekstynas bus pasiekiamas per BlackLab (http://inl.github.io/BlackLab/) – tekstyno administravimo programą, kuri suteikia plačias paieškos galimybes. Duomenims saugoti naudojama MongoDB duomenų bazė, joje įrašai saugomi JSON formatu (žr. https://www.mongodb.com/what-is-mongodb). Įrašams peržiūrėti ir redaguoti naudojama Mongo-express administravimo sistema (žr. https://github.com/mongoexpress/mongo-express),[...]