Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/57512
Type of publication: Konferencijų tezės nerecenzuojamuose leidiniuose / Conference theses in non-peer-reviewed publications (T2)
Field of Science: Filologija / Philology (H004)
Author(s): Rimkutė, Erika;Bielinskienė, Agnė;Boizou, Loic;Utka, Andrius
Title: Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai
Is part of: Skaitmeniniaikalbos ištekliai, jų plėtros kryptys ir panaudos galimybės: 24-oji tarptautinė mokslinė Jono Jablonskio konferencija; Lietuvių kalbos institutas, 2017 m. rugsėjo 29 d.: pranešimų tezės. Vilnius : Lietuvių kalbos institutas, 2017
Extent: p. 20-21
Date: 2017
Keywords: Anotuoti lietuvių kalbos tekstynai;Kalbos technologijos;Morfologinis anotatorius
Abstract: Pranešime pristatomi du anotuoti lietuvių kalbos tekstynai, parengti Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre (KLC). Anotuoti tekstynai – pagrindiniai ištekliai, be kurių neapsieinama plėtojant kalbos technologijas. Jie paprastai naudojami kitiems natūraliosios kalbos ištekliams ir įrankiams kurti tokiose srityse, kaip automatinio kalbos atpažinimo sistemos, automatizuotas vertimas ir pan. Morfologiškai anotuotas tekstynas MATAS rengtas 2002–2014 metais. Jį sudaro 1,6 mln. žodžių iš įvairių stilių tekstų. Tekstynas parengtas 1 mln. žodžių tekstyno, sudaryto 2006 m., pagrindu pritaikant statistinius modelius. Tekstynui anotuoti naudotas KLC parengtas morfologinis anotatorius. Tekstynas yra sužymėtas dviem formatais: KLC sukurtu formatu ir tarptautiniu TEI P5. Morfologinės pažymos, sudarytos remiantis MULTEXT-East formato (http://nl.ijs.si/ME/V4/msd/html/index.html) pavyzdžiu, kur kiekviena santrumpa atitinka konkrečią morfologinę kategoriją (nuo 2 iki 14). Sintaksiškai anotuotas tekstynas ALKSNIS, kaip aukso standartas tolesniems tyrimams ir ištekliams, parengtas 2016 m. Šį tekstyną sudaro 2355 sakiniai (apie 30 tūkst. žodžių), imti iš įvairių stilių tekstų. Tekstyno anotavimas paremtas automatinio morfologinio ir sintaksinio anotavimo principais, pritaikytas sintaksinių priklausomybių (angl. dependencies) modelis. Sintaksiniu analizatoriumi, kuris sukurtas KLC Haskell kalba, automatiškai sugeneruoti priklausomybių medžiai (angl. dependency trees) pateikiami grafiškai medžio principu, kur kiekviena medžio viršūnė atitinka sakinio žodį, skyrybos ženklą ar kitą sakinio vienetą. Priklausomybių ryšiai tarp žodžių yra nurodomi briaunomis, o prie kiekvieno žodžio sutrumpintai pateikiama morfologinė ir sintaksinė informacija. Sintaksinei informacijai nurodyti naudojama 18 sintaksinių pažymų ir jų variantų, pvz.,[...]
Internet: https://hdl.handle.net/20.500.12259/57512
Affiliation(s): Humanitarinių mokslų fakultetas
Kompiuterinės lingvistikos centras
Lituanistikos katedra
Užsienio kalbų, lit. ir vert. s. katedra
Vytauto Didžiojo universitetas
Appears in Collections:Universiteto mokslo publikacijos / University Research Publications

Files in This Item:
marc.xml7.1 kBXMLView/Open

MARC21 XML metadata

Show full item record

Page view(s)

146
checked on Nov 2, 2019

Download(s)

10
checked on Nov 2, 2019

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.