Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/130123
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Šliogeris, Šarūnas
Supervisor: Kapočiūtė-Dzikienė, Jurgita
Title: Autorystės nustatymas iš lietuviško nenorminės kalbos teksto giliojo ir klasikiniais mašininio mokymo metodais
Other Title: Authorship attribution from an anonymous Lithuanian non-normative language text using deep and classic machine learning methods
Extent: 63 p.
Date: 27-May-2021
Keywords: Autorystės nustatymas;Authorship attribution;Mašininis mokymas;Machine learning;Gilusis mokymas;Deep learning;Neuroniniai tinklai;Neural networks
Abstract: Magistro darbe yra sprendžiamas autorystės nustatymo uždavinys, taikant mašininio mokymo metodus skirtingiems lietuviškų tekstų duomenų rinkiniams. Vienas iš šių rinkinių yra norminės kalbos tekstai sudaryti iš Seimo posėdžių stenogramų, kai kitas yra sudarytas iš nenorminės kalbos įvairių internetinių portalų komentarų skilties tekstų. Yra siekiama išsiaiškinti įvairių metodų rezultatus ir kaip šie metodai atlieka uždavinį naudojant skirtingus duomenų rinkinius. Yra taikomi trys klasikiniai mašininio mokymo metodai (Atsitiktinis miškas, Naivus Bejesas, Sprendimų medis) ir keturi giliojo mokymo metodai (CNN, LSTM, Bi-LSTM, BERT), kuris vienas iš jų (BERT) yra naujai sukurtas modelis teksto klasifikavimo uždaviniams spręsti. Iš gautų rezultatų matyti, kad autorystės nustatymo uždaviniams taikytas CNN metodas, gauna geriausią tikslumą naudojant norminės kalbos duomenų rinkinį – tikslumo įvertis siekia 85,15 % (eksperimentui naudota 50 autorių ir 400 tekstų kiekvienam). Tuo tarpu geriausias nenorminės kalbos duomenų rinkiniui taikytas metodas yra papildytas Naivus Bejesas ir jo geriausias tikslumo įvertis buvo gautas 68,81 % (eksperimentui naudota 10 autorių ir 400 tekstų kiekvienam). Naujojo BERT modelio rezultatai nebuvo geresni už anksčiau paminėtus metodų rezultatus. Iš visų gautų rezultatų buvo suformuotos rekomendacijos spręsti autorystės nustatymo uždavinį naudojant lietuvių kalbos tekstus ir buvo nurodyti galimi tolimesni darbai.
The task of authorship attribution is being solved in the master's thesis by applying machine learning methods to different data sets of Lithuanian texts. One of these sets is the texts of the normative language consisting of transcripts of Seimas sittings, while the other is composed of the texts of the comments section from the various online portals in the non-normative language. The aim is to find out the results of different methods and how these methods perform the task using different data sets. Three classic machine learning methods (Random Forest, Naive Bayes, Decision Tree) and four deep learning methods (CNN, LSTM, Bi-LSTM, BERT) (, - one of which (BERT) is a newly developed model) have been applied for solving text classification problems. The results show that the CNN method applied to the authorship attribution tasks obtains the best accuracy using the normative language data set - 85.15 % (50 authors and 400 texts each were used for the experiment). Meanwhile, the best method used for the non-normative language data set is Naive Bayes Complemented with the best-achieved accuracy of 68.81 % (10 authors and 400 texts each were used for the experiment). The results with new BERT model were not better compared to all previously mentioned. Based on the experimental investigation and obtained results, recommendations for solving the authorship attribution task for the Lithuanian language were formulated and possible future work research directions were indicated.
Internet: https://hdl.handle.net/20.500.12259/130123
Appears in Collections:2021 m. (IF mag.)

Files in This Item:
sarunas_sliogeris_md.pdf957.39 kBAdobe PDF   Until 2026-07-01View/Open

Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

6
checked on Jun 6, 2021

Download(s)

1
checked on Jun 6, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.