Autorystės nustatymas iš lietuviško nenorminės kalbos teksto giliojo ir klasikiniais mašininio mokymo metodais
Šliogeris, Šarūnas |
Magistro darbe yra sprendžiamas autorystės nustatymo uždavinys, taikant mašininio mokymo metodus skirtingiems lietuviškų tekstų duomenų rinkiniams. Vienas iš šių rinkinių yra norminės kalbos tekstai sudaryti iš Seimo posėdžių stenogramų, kai kitas yra sudarytas iš nenorminės kalbos įvairių internetinių portalų komentarų skilties tekstų. Yra siekiama išsiaiškinti įvairių metodų rezultatus ir kaip šie metodai atlieka uždavinį naudojant skirtingus duomenų rinkinius. Yra taikomi trys klasikiniai mašininio mokymo metodai (Atsitiktinis miškas, Naivus Bejesas, Sprendimų medis) ir keturi giliojo mokymo metodai (CNN, LSTM, Bi-LSTM, BERT), kuris vienas iš jų (BERT) yra naujai sukurtas modelis teksto klasifikavimo uždaviniams spręsti. Iš gautų rezultatų matyti, kad autorystės nustatymo uždaviniams taikytas CNN metodas, gauna geriausią tikslumą naudojant norminės kalbos duomenų rinkinį – tikslumo įvertis siekia 85,15 % (eksperimentui naudota 50 autorių ir 400 tekstų kiekvienam). Tuo tarpu geriausias nenorminės kalbos duomenų rinkiniui taikytas metodas yra papildytas Naivus Bejesas ir jo geriausias tikslumo įvertis buvo gautas 68,81 % (eksperimentui naudota 10 autorių ir 400 tekstų kiekvienam). Naujojo BERT modelio rezultatai nebuvo geresni už anksčiau paminėtus metodų rezultatus. Iš visų gautų rezultatų buvo suformuotos rekomendacijos spręsti autorystės nustatymo uždavinį naudojant lietuvių kalbos tekstus ir buvo nurodyti galimi tolimesni darbai.
The task of authorship attribution is being solved in the master's thesis by applying machine learning methods to different data sets of Lithuanian texts. One of these sets is the texts of the normative language consisting of transcripts of Seimas sittings, while the other is composed of the texts of the comments section from the various online portals in the non-normative language. The aim is to find out the results of different methods and how these methods perform the task using different data sets. Three classic machine learning methods (Random Forest, Naive Bayes, Decision Tree) and four deep learning methods (CNN, LSTM, Bi-LSTM, BERT) (, - one of which (BERT) is a newly developed model) have been applied for solving text classification problems. The results show that the CNN method applied to the authorship attribution tasks obtains the best accuracy using the normative language data set - 85.15 % (50 authors and 400 texts each were used for the experiment). Meanwhile, the best method used for the non-normative language data set is Naive Bayes Complemented with the best-achieved accuracy of 68.81 % (10 authors and 400 texts each were used for the experiment). The results with new BERT model were not better compared to all previously mentioned. Based on the experimental investigation and obtained results, recommendations for solving the authorship attribution task for the Lithuanian language were formulated and possible future work research directions were indicated.