Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/58199
Type of publication: Konferencijų tezės nerecenzuojamuose leidiniuose / Conference theses in non-peer-reviewed publications (T2)
Field of Science: Filologija / Philology (H004)
Author(s): Vilkaitė, Laura;Rimkutė, Erika;Bielinskienė, Agnė;Boizou, Loic;Bumbulienė, Ieva;Kovalevskaitė, Jolanta;Krilavičius, Tomas;Mandravickaitė, Justina
Title: Duomenų bazė lietuvių kalbos pastoviesiems junginiams
Is part of: Skaitmeniniai kalbos ištekliai, jų plėtros kryptys ir panaudos galimybės: 24-oji tarptautinė mokslinė Jono Jablonskio konferencija; Lietuvių kalbos institutas, 2017 m. rugsėjo 29 d.: pranešimų tezės. Vilnius : Lietuvių kalbos institutas, 2017
Extent: p. 22-23
Date: 2017
Keywords: Kolokacijų žodynas;Lietuvių kalbos pastovieji junginiai;MongoDB
Abstract: Vykdant projektą „Lietuvių kalbos pastoviųjų žodžių junginių automatinis atpažinimas (PASTOVU)“ (nr. LIP-027/2016) (žr. http://mwe.lt/), siekiama sukurti dabartinės rašytinės lietuvių kalbos pastoviųjų žodžių junginių tyrimo metodiką, parengti tekstynu paremtą lietuvių kalbos kolokacijų žodyną. Projekte sudarytas ir naudojamas 2014–2016 m. Delfi.lt tekstynas, į jį įeina 12 tekstų kategorijų: DELFI veidas, projektai, DELFI mokslas, DELFI auto, sportas, DELFI gyvenimas, DELFI žmonės, DELFI pilietis, verslas ir kt. Tekstyno apimtis – 72 mln. žodžių. Kolokacijų žodynas bus rengiamas remiantis duomenų baze. Joje bus pateikta įvairialypė informacija apie pastoviuosius junginius: gramatinė, leksinė informacija, vartosenos dažnumas, teksto rubrika, konkordanso pavyzdžiai ir pan. Iš duomenų bazės bus galima pasirinkti reikalingą informaciją kolokacijų žodynui ar kitam leksikografiniam darbui. Šiuo metu duomenų bazėje sukelti visi dvižodžiai pastovieji junginiai, kurie buvo pažymėti bandomajame tekstyne (tai minėto tekstyno dalis – 72 tūkst. žodžių). Iš viso yra apie 2700 lemų (antraštinių formų) ir daugiau nei 35 000 kaitybinių formų. Prieš tai tekstynas buvo automatiškai morfologiškai anotuotas, tik taip buvo gãlima skirtingas to paties junginio kaitybines formas suvesti į vieną lemą. Naudojamos Universal Dependency gramatinės pažymos (žr. http://universaldependencies.org/u/pos/). Visas anotuotas tekstynas bus pasiekiamas per BlackLab (http://inl.github.io/BlackLab/) – tekstyno administravimo programą, kuri suteikia plačias paieškos galimybes. Duomenims saugoti naudojama MongoDB duomenų bazė, joje įrašai saugomi JSON formatu (žr. https://www.mongodb.com/what-is-mongodb). Įrašams peržiūrėti ir redaguoti naudojama Mongo-express administravimo sistema (žr. https://github.com/mongoexpress/mongo-express),[...]
Internet: https://hdl.handle.net/20.500.12259/58199
Affiliation(s): Baltijos pažangių technologijų institutas, Vilnius
Baltijos pažangiųjų technologijų institutas
Humanitarinių mokslų fakultetas
Informatikos fakultetas
Kompiuterinės lingvistikos centras
Lituanistikos katedra
Taikomosios informatikos katedra
Užsienio kalbų, lit. ir vert. s. katedra
Vytauto Didžiojo universitetas
Appears in Collections:Universiteto mokslo publikacijos / University Research Publications

Files in This Item:
marc.xml9.1 kBXMLView/Open

MARC21 XML metadata

Show full item record

Page view(s)

146
checked on Nov 2, 2019

Download(s)

12
checked on Nov 2, 2019

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.