Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/34557
Type of publication: Magistro darbas / Master thesis
Field of Science: Informatika / Informatics
Author(s): Stanikūnas, Daumantas
Title: Matų ir metodų poveikis lietuviškų tekstų stilometrinei analizei
Other Title: Effect of measures and methods in stylometric analysis
Extent: 77 p.
Date: 22-May-2017
Event: Vytauto Didžiojo universitetas. Informatikos fakultetas. Matematikos ir statistikos katedra
Keywords: Stilometrija;Statistinė analizė;Atstumo matas;Panašumo matasduomenų vizualizavimas;Stylometry;Statistical analysis;Distance measure;Similarity measure;Data visualization
Abstract: Nuolatinis tobulėjimas kompiuterių ir informacinese technologijose leidžia apdoroti vis didesnį duomenų kiekį, taip praplečiamos tyrimų galimybės, įskaitant ir stilometrinius tyrimus. Atliekant stilometrinę analizę visada iškyla problema – kaip pasirinkti tinkamą matą, kuris geriausiai išreikštų skirtumą tarp lyginamų tekstų. Šiame baigiamajame darbe yra aptariami ir palyginami įvairus atstumo ir (ne)panašumo matai, pirmą kartą matematine forma pateikiamas Burrows Zeta metodas ir jo variacijos bei analizuojami vizualizavimo metodai, naudojami stilometrijoje. Eksperimentuose yra analizuojami du skirtingi tekstynai: Lietuvos Seimo posedžių stenogramos ir grožinės lietuvių kalbos tekstai. Šio darbo tikslas yra identifikuoti geriausius matus, kurie yra tinkami naudoti stilometriniuose tyrimuose su tekstais lietuvių kalba, ir patikrinti, ar Burrows Zeta metodai pagerina rezultatus analizuojant pasirinktą tekstyną, kai naudojama tekstyno charakteristika yra dažniausiai pasikartojantys žodžiai. Išvadose yra pateikiamos rekomendacijos, kokius matus naudoti atitinkamo pobudžio lietuvių tekstynuose atsižvelgiant i tekstyno imties dydį ir pasirinktą dažniausiai pasikartojancių žodžių kiekį.
Constant developments in information and computer technologies make it possible to handle constantly increasing amount of data, thereby expanding the research possibilities in many fields, including stylometry. When performing stylometric analysis, one issue always comes up – what measure should we use in order to get the biggest differences between compared texts. In this thesis, we discuss and compare different distance and similarity measures, describe Burrows’s Zeta method and its extensions using the language of mathematics and discuss visualization methods used in stylometric analysis. Two different types of corpus were selected for these experiments: transcripts of parliamentary debates of the Lithuanian Parliament and Lithuanian fiction texts. The objective of the experiments is to identify what measures would achieve better results in a stylometric analysis of Lithuanian texts,c when features used are the most frequent words, and analyze if Burrows’s Zeta methods can improve the results. In conclusions recommendations are presented: which measures and methods are more suitable when analyzing different types of corpus of Lithuanian texts, considering the sample size of the corpus and the amount of most frequent words used.
Internet: https://eltalpykla.vdu.lt/1/34557
https://hdl.handle.net/20.500.12259/34557
Appears in Collections:2017 m. (IF mag.)

Files in This Item:
Show full item record

Page view(s)

68
checked on Oct 14, 2019

Download(s)

108
checked on Oct 14, 2019

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.