Daugiakalbių tekstynų naudojimas ir taikymas

Rimkutė, Erika; Kovalevskaitė, Jolanta; Daudaravičius, Vidas

Use this url to cite publication: https://hdl.handle.net/20.500.12259/32388

Daugiakalbių tekstynų naudojimas ir taikymas

Type of publication

Straipsnis kitoje duomenų bazėje / Article in other database (S4)

Author(s)

Author	Affiliation
Rimkutė, Erika	Lituanistikos katedra / Department of Lithuanian Studies	LT
Kovalevskaitė, Jolanta	Vytauto Didžiojo universitetas / Vytautas Magnus University	LT
Daudaravičius, Vidas	Vytauto Didžiojo universitetas / Vytautas Magnus University	LT

Title

Daugiakalbių tekstynų naudojimas ir taikymas

[lt]

Other Title

The usage and application of multilingual corpora

[en]

Is part of

Darbai ir dienos. Kaunas : Vytauto Didžiojo universitetas, 45 (2006)

Journal Title

Darbai ir dienos / Deeds and Days

Journal Issue Title

Darbai ir dienos / Deeds and Days 2006, nr. 45

Date Issued

Date	Issue	Start Page	End Page
2006	45	41	62

Publisher

Kaunas : Vytauto Didžiojo universitetas

Is Referenced by

CEEOL

Lituanistika

Extent

p. 41-62

URI

URI
https://www.vdu.lt/cris/bitstream/20.500.12259/32388/1/ISSN2335-8769_2006_N_45.PG_41-62.pdf
https://hdl.handle.net/20.500.12259/32388

DOI (of the reviewed item)

10.7220/2335-8769.45.3

Field of Science

Keywords (lt)

Abstract (lt)

Straipsnyje aprašyti daugiakalbių tekstynų tipai, jų sudarymo principai, lygiagretinimo programos, tų tekstynų naudojimo ir taikymo sritys. Išsamiau aprašytas Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre sudaryti lygiagretieji tekstynai, jų pritaikymo galimybės, naudojama lygiagretinimo programa. Daugiakalbiai tekstynai suteikia galimybę tyrinėti tarpkalbinius dalykus palyginant tam tikrą kalbos reiškinį dviejose ar daugiau kalbų. Daugiakalbiai tekstynai gali būti palyginamieji ir lygiagretieji. Pastarieji gali būti vienakrypčiai ir dvikrypčiai. Lygiagrečiuosius tekstynus sudaro originalo ir vertimo tekstai, sulygiuoti papastraipiui ar pasakiniui. Šie tekstynai dažniausiai naudojami vertimų studijose. Lygiagretieji tekstynai gali būti dvikalbiai ir daugiakalbiai. Palyginamieji tekstynai gali būti sudaryti iš panašios tematikos verstų ir neverstų tos pačios kalbos tekstų arba iš panašios tematikos verstų ir neverstų skirtingų kalbų tekstų. Šie tekstynai taikomi vertimo atitikmenims rinkti, terminų ar kitokių leksinių vienetui vartosenai tirti, kalboje atsispindinčiai kultūrai tyrinėti. Tekstai lygiagretinami naudojant specialias programas. Jos paprastai remiasi statistiniais metodais. Lygiagretinimo procesas dažniausiai sudarytas iš trijų etapų: lygiagretinimo pastraipų, sakinių ir žodžių ar frazių lygmeniu. Daugiakalbiai tekstynai naudojami kalboms mokyti(s), vertimo atitikmenims gauti, kalboms lyginti, įvertinant ir kuriant automatinio vertimo sistemas.

Abstract (en)

The main point of the paper is to introduce multilingual corpora as useful and powerful tools for translation research. The paper describes main types of multilingual corpora, principles of compilation, automatic alignment programs and application of corpora. Many researches point the advantages of multilingual corpora for various monolingual and multilingual linguistic analyses, while the practice of multilingual corpora in Lithuanian translation studies is still a new field of research. This paper gives an introduction to the most important steps in the process of compiling the multilingual corpus in the Centre of Computational Linguistics at Vytautas Magnus University. The online corpus consists of 3 parts: English-Lithuanian parallel corpus (this part contains 6.768 parallel sentences) and Czech- Lithuanian (4.1881 parallel sentences), Lithuanian- Czech (693 parallel sentences) parallel corpus. We introduce the development of software and search possibilities of this corpus. The article exemplifies the usage of the multilingual corpus and contrasts that to the usage of traditional bilingual dictionaries. This corpus is still being developed, and the most recent extensions, such as adding more languages and other text types, are presented in this paper.