Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/54536
Type of publication: Straipsnis kitose duomenų bazėse / Article in other databases (S4)
Field of Science: Filologija / Philology (H004)
Author(s): Rimkutė, Erika;Utka, Andrius;Levane-Petrova, Kristine
Title: Lietuvių–latvių ir latvių–lietuvių kalbų lygiagretusis tekstynas LILA
Other Title: Lithuanian-Latvian, Latvian-Lithuanian parallel corpus (LILA)
Is part of: Kalbų studijos = Studies about languages. Kaunas : Technologija, 2013, nr. 23
Extent: p. 70-77
Date: 2013
Keywords: Lygiagretusis tekstynas;Lietuvių kalba;Latvių kalba;Baltų kalbos;Mažai išteklių turinčios kalbos
Abstract: Straipsnyje pristatomas naujas kalbos išteklius – lygiagretusis beveik iš 9 mln. žodžių sudarytas lietuvių–latvių, latvių–lietuvių kalbų tekstynas LILA, kurio tekstai sulygiagretinti pastraipų ir sakinių lygmeniu. Tekstynas yra su metaduomenimis, kuriuose pateikiama informacija apie autorius, leidimo metus ir pan. Tekstynas struktūriškai anotuotas: jame sužymėtos pastraipų ir sakinių ribos. Kol kas tai vienintelis dvikalbis šios kalbų poros tekstynas. Tekstynas parengtas 2011–2012 m. Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro (VDU KLC) darbuotojų kartu su Latvijos universiteto Matematikos ir informatikos instituto Dirbtinio intelekto laboratorijos (LU MII) mokslininkais. Pastraipoms ir sakiniams lygiagretinti naudotas VDU KLC sukurtas pusiau automatinis įrankis Aligner 2.0.6.7. Straipsnyje aprašyta, su kokiomis problemomis, rengdami tekstynus ir kitas kalbos priemones, susiduria rečiau vartojamų kalbų atstovai. Daugiausia problemų kelia ribotas tekstų pasirinkimas, dėl to sunku sudaryti norimos apimties ir pobūdžio tekstynus; ilgai užtrunka spausdintų tekstų skaitmeninimas. Pristatyta tekstyno sudarymo koncepcija, sandara, jo rengimo etapai; išsamiau aprašytas naudotas lygiagretinimo įrankis. Straipsnyje rašyta apie lygiagrečiojo tekstyno paieškos sistemą, šio ir kitų lygiagrečiųjų tekstynų panaudojimo galimybės, ypač kalboms mokyti ir mokytis, struktūrinių lietuvių ir latvių kalbų skirtumų analizei, vertimų kokybės lyginimui, keliakalbiams žodynams sudaryti, kalbų technologijų srityje (kuriant statistinio automatinio vertimo sistemas)
The paper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level. The total size of the LILA corpus is 9 m words. So far it is a unique resource for this language pair. The corpus contains metadata with bibliographical information (title, author, year of publishing, etc.). The corpus contains the structural annotation, which includes boundaries of aligned segments, paragraphs, and sentences. The alignment of paragraphs and sentences has been done by the semi-automatic alignment tool Aligner 2.0.6.7. The corpus was compiled during 2011-2012 by scientists of the Vytautas Magnus University’s Centre of Computational Linguistics (VMU CCL) and the Latvian University’s Mathematical and Informatics Institute’s Laboratory of Artificial Intelligence (LU MII). The paper describes problems and challenges that need to be solved, when a parallel corpus for two small languages is created. The limited choice of appropriate parallel material poses the most difficult obstacle, as then it is difficult to compile a corpus of desired size. The paper presents: the conception and structure of the LILA corpus, phases of its compilation, the alignment tool, the query system, and examples of usage. The corpus is especially useful for teaching and learning languages, for comparing languages, for compilation of dictionaries, and for developing language technology tools (e. g. statistical machine translation systems)
Internet: https://doi.org/10.5755/j01.sal.0.23.4582
https://doi.org/10.5755/j01.sal.0.23.4582
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:Universiteto mokslo publikacijos / University Research Publications

Files in This Item:
marc.xml12.02 kBXMLView/Open

MARC21 XML metadata

Show full item record

Page view(s)

152
checked on Jan 5, 2020

Download(s)

10
checked on Jan 5, 2020

Google ScholarTM

Check

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.