Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/124748
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorTamošiūnaitė, Minija-
dc.contributor.authorDaudaravičius, Vidas-
dc.date.accessioned2020-12-23T01:19:57Z-
dc.date.available2020-12-23T01:19:57Z-
dc.date.issued2013-01-31-
dc.identifier.urihttps://hdl.handle.net/20.500.12259/124748-
dc.description.abstractTeksto skaidymo įvairaus tipo segmentais metodai yra plačiai naudojami teksto apdorojimui. Segmentuojant naudojami tiek statistiniai, tiek formalieji metodai. Disertacijoje pristatomas naujas segmentavimo tipas ir metodas - segmentavimas pastoviaisiais junginiais - ir pateikiami taikymai įvairiose teksto apdorojimo srityse. Taikant pastoviųjų junginių segmentavimą leksikografijoje atskleidžiama, kaip objektyviai ir greitai galima analizuoti labai didelius tekstų archyvus aptinkant vartojamą terminiją ir šių automatiškai identifikuotų terminų svarbumą ir kaitą laiko tėkmėje. Ši analizė leidžia greitai nustatyti svarbius metodologinius pokyčius mokslinių tyrimų istorijoje ir nustatyti pastarojo meto aktualias tyrimų sritis. Tekstų klasifikavimo taikyme atskleidžiama, kaip taikant segmentavimą pastoviaisiais junginiais galima pagerinti tekstų klasifikavimo rezultatus. Taip pat, pasitelkiant segmentavimą pastoviaisiais junginiais, atskleidžiama, kad nežymiai galima pagerinti statistinio mašininio vertimo kokybę, ir atskleidžiama įvairių žodžių junglumo įverčių įtaka segmentavimui pastoviaisiais junginiais. Naujas teksto skaidymo pastoviaisiais junginiais metodas atskleidžia naujas galimybes gerinti teksto apdorojimo rezultatus įvairiuose taikymuose ir įvairiose kalbose.lt
dc.description.abstractSegmentation is a widely used paradigm in text processing. Rule-based, statistical and hybrid methods are employed to perform the segmentation. This dissertation introduces a new type of segmentation - collocation segmentation - and a new method to perform it, and applies them to three different text processing tasks. In lexicography, collocation segmentation makes possible the use of large corpora to evaluate the usage and importance of terminology over time. Text categorization results can be improved using collocation segmentation. The study shows that collocation segmentation, without any other language resources, achieves better results than the widely used n-gram techniques together with POS (Part-of-Speech) processing tools. Also, the preprocessing of data with collocation segmentation and subsequent integration of these segments into a Statistical Machine Translation system improves the translation results. Diverse word combinability measures variously influence the final collocation segmentation and, thus, the translation results. The new collocation segmentation method is simple, efficient and applicable to language processing for diverse applications.en
dc.description.sponsorshipVytauto Didžiojo universitetaslt
dc.format.extent48 p.-
dc.language.isolt-
dc.subjectpastovieji junginiailt
dc.subjectdaugiažodžiai junginiailt
dc.subjectterminologijalt
dc.subjectmašininis vertimaslt
dc.subjecttekstų klasifikavimaslt
dc.subjectcollocation segmentationen
dc.subjectmulti-worden
dc.subjectterminologyen
dc.subjectmachine translationen
dc.subjecttext classificationen
dc.subject.otherInformatika / Informatics (N009)-
dc.titleTeksto skaidymas pastoviųjų junginių segmentaislt
dc.title.alternativeCollocation segmentation for text chunkingen
dc.typedoctoral thesis-
item.fulltextWith Fulltext-
item.grantfulltextopen-
crisitem.author.deptSistemų analizės katedra-
crisitem.author.deptTaikomosios informatikos katedra-
Appears in Collections:VDU, ASU ir LEU iki / until 2018
Files in This Item:
Show simple item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

9
checked on Jun 6, 2021

Download(s)

5
checked on Jun 6, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.