Automatinis autoriaus charakteristikų nustatymas iš lietuviško nenorminės kalbos teksto
Magistro darbe sprendžiamas autoriaus charakteristikų (lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo) nustatymo uždavinys, taikant automatinius metodus. Uždavinys, turint labai trumpus tekstus (vid. ~ 24 žodžių) ir nenorminę lietuvių kalbą, lietuvių kalbai yra sprendžiamas pirmą kartą. Darbe yra atsakoma į pagrindinę problemą: kaip teisingai pasirinkti metodus (jų parametrus, požymių tipą), kurie leistų kuo tiksliau automatiškai nustatyti autoriaus charakteristikas iš nenorminės lietuvių kalbos teksto (kai turimas tik pats tekstas, tačiau jokia kita informacija apie autorių nėra žinoma). Buvo atlikta metodų, taikomų kitoms kalboms, analizė; sudarytas savybių sąrašas. Parengtas nenorminės lietuvių kalbos tekstynas. Buvo atlikti eksperimentai su turimais duomenimis, išbandant įvairius prižiūrimo mašininio mokymo metodus bei giliuosius neuroninius tinklus (jų parametrus), pagrindinius teksto savybių tipus (leksines, simbolines savybes). Taip pat buvo įvertintas tikslumas ir nustatytas efektyviausias metodas (paprastasis daugianaris Bejeso metodas), teksto savybių tipas (simbolių n-gramos) (pastarasis leido pasiekti 84,3 %, 52,7 %, 79,6 %, 76,6 %, bei 79,1 % tikslumą, sprendžiant lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo charakteristikos nustatymo užduotis). Apibendrinus gautus rezultatus ir jų tikslumą, suformuluotos rekomendacijos, skirtos spręsti žmogaus charakteristikų (lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo) iš teksto nustatymo uždavinį, nenorminei lietuvių kalbai.
This research work describes the author profiling (gender, age, education, marital status and personality type) problem for the Lithuanian language, which has been solved using automatic machine learning methods. The main contribution of this work is the offered solutions for the very short texts (avg. ~ 24 words per text) and non-normative Lithuanian language. This research is a response to the fundamental problem: how to choose automatic methods (parameters, feature type) that could accurately identify the author profiling dimension values from the pure non-normative Lithuanian language texts (when no meta-information is known about the author). The related work analysis helped to reveal the automatic methods and feature types that are the most promising for the other languages The experiments were performed on the non-normative Lithuanian corpus (that was specifically prepared for this task), testing a variety of supervised machine learning methods (and the main features types: lexical and symbolic) and deep learning approaches. The evaluated accuracy revealed the most efficient method (Naive Bayes Multinomial) and feature type (Character NGram) (it reached 84,3 %, 52,7 %, 79,6 %, 76,6 % and 79,1 % of accuracy in gender, age, education, marital status and personality type detection task, responsively). Based on the obtained results, the recommendations for the author profiling (gender, age, education, marital status and personality type dimensions) and non-normative Lithuanian language were formulated.