Matų ir metodų poveikis lietuviškų tekstų stilometrinei analizei
Nuolatinis tobulėjimas kompiuterių ir informacinese technologijose leidžia apdoroti vis didesnį duomenų kiekį, taip praplečiamos tyrimų galimybės, įskaitant ir stilometrinius tyrimus. Atliekant stilometrinę analizę visada iškyla problema – kaip pasirinkti tinkamą matą,
kuris geriausiai išreikštų skirtumą tarp lyginamų tekstų. Šiame baigiamajame darbe yra aptariami ir palyginami įvairus atstumo ir (ne)panašumo matai, pirmą kartą matematine forma pateikiamas Burrows Zeta metodas ir jo variacijos bei analizuojami vizualizavimo
metodai, naudojami stilometrijoje. Eksperimentuose yra analizuojami du skirtingi tekstynai: Lietuvos Seimo posedžių stenogramos ir grožinės lietuvių kalbos tekstai. Šio darbo tikslas yra identifikuoti geriausius matus, kurie yra tinkami naudoti stilometriniuose tyrimuose su tekstais lietuvių kalba, ir patikrinti, ar Burrows Zeta metodai pagerina rezultatus
analizuojant pasirinktą tekstyną, kai naudojama tekstyno charakteristika yra dažniausiai pasikartojantys žodžiai. Išvadose yra pateikiamos rekomendacijos, kokius matus naudoti atitinkamo pobudžio lietuvių tekstynuose atsižvelgiant i tekstyno imties dydį ir pasirinktą dažniausiai pasikartojancių žodžių kiekį.
Constant developments in information and computer technologies make it possible to handle constantly increasing amount of data, thereby expanding the research possibilities in many fields, including stylometry. When performing stylometric analysis, one issue always comes up – what measure should we use in order to get the biggest differences between compared texts. In this thesis, we discuss and compare different distance and similarity measures, describe Burrows’s Zeta method and its extensions using the language of mathematics and discuss visualization methods used in stylometric analysis. Two different types of corpus were selected for these experiments: transcripts of parliamentary debates of the Lithuanian Parliament and Lithuanian fiction texts. The objective of the experiments is to identify what measures would achieve better results in a stylometric analysis of Lithuanian texts,c when features used are the most frequent words, and analyze if Burrows’s Zeta methods can improve the results. In conclusions recommendations are presented: which measures and methods are more suitable when analyzing different types of corpus of Lithuanian texts, considering the sample size of the corpus and the amount of most frequent words used.