Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/57329
Type of publication: Straipsnis kitose duomenų bazėse / Article in other databases (S4)
Field of Science: Filologija / Philology (H004)
Author(s): Bielinskienė, Agnė;Boizou, Loic;Rimkutė, Erika
Title: Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai
Other Title: Lithuanian morfologically annotated corpus and treebank
Is part of: Bendrinė kalba [elektroninis išteklius]. Vilnius : Lietuvių kalbos institutas, 2017, T. 90
Extent: p. 1-30
Date: 2017
Note: Ankstesnis žurnalo pavadinimas - Kalbos kultūra
Keywords: Lietuvių kalba;Automatinė morfologinė analizė;Tekstynas;Automatinė sintaksinė analizė;Kalbos technologijos;Lithuanian language;Corpus;Automatic morphological analysis;Automatic syntactic analysis;Language technologies
Abstract: Anotuoti tekstynai – pagrindiniai ištekliai, be kurių neapsieinama plėtojant kalbos technologijas, kompiuterizuojant kalbą. Nuo anotuotų tekstynų dydžio, kokybės, parengimo principų neretai priklauso ir kitų įrankių kūrimo galimybės. Straipsnyje apžvelgti Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre parengti du anotuoti lietuvių kalbos tekstynai: morfologiškai anotuotas tekstynas MATAS ir sintaksiškai anotuotas tekstynas ALKSNIS. Pristatyta jų struktūra, naudotos anotavimo pažymos, anotavimo programos. Daugiau dėmesio skirta naujesniam anotuotam tekstynui ALKSNIS, paminėti sunkiausi jo anotavimo aspektai. Taip pat daug dėmesio straipsnyje skirta paieškai abiejuose tekstynuose per ANNIS sistemą. Pateiktos konkrečios taisyklės ir jų kombinacijos, leidžiančios atlikti tiek paprastąją (ieškoti konkrečios žodžio formos, antraštinės formos, tam tikros sintaksinės funkcijos ir pan.), tiek sudėtinę paiešką (ieškoti iš kelių žodžių sudarytų junginių, kelių gramatinių kategorijų kombinacijų ir pan.)
Annotated corpora are fundamental resources, which are very useful to develop language technology. The size, quality, and structure of such annotated corpora has a direct influence on the development of other tools. This article describes two annotated corpora prepared by the Centre of Computational Linguistics at Vytautas Magnus University: MATAS, a morphologically annotated corpus, and ALKSNIS, a treebank. It mainly discusses the structure and the tag set of both corpora, as well as the annotation procedure and tools. Both corpora are available online through ANNIS interface, therefore the syntax of ANNIS simple and complex requests is summarised for the Lithuanian potential users
Internet: http://www.bendrinekalba.lt/Straipsniai/90/Bielinskiene ir kt_BK_90_straipsnis.pdf
http://www.bendrinekalba.lt/Straipsniai/90/Bielinskiene ir kt_BK_90_straipsnis.pdf
Affiliation(s): Humanitarinių mokslų fakultetas
Kompiuterinės lingvistikos centras
Lituanistikos katedra
Užsienio kalbų, lit. ir vert. s. katedra
Vytauto Didžiojo universitetas
Appears in Collections:Universiteto mokslo publikacijos / University Research Publications

Files in This Item:
marc.xml10.06 kBXMLView/Open

MARC21 XML metadata

Show full item record

Page view(s)

192
checked on Mar 4, 2020

Download(s)

20
checked on Mar 4, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.