Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/36690
Type of publication: Magistro darbas / Master thesis
Field of Science: Informatika / Informatics
Author(s): Briedienė, Monika
Title: Automatinis autoriaus charakteristikų nustatymas iš lietuviško nenorminės kalbos teksto
Other Title: Automatic author profiling from non-normative Lithuanian texts
Date: 22-May-2018
Event: Vytauto Didžiojo universitetas. Informatikos fakultetas. Taikomosios informatikos katedra
Keywords: Autoriaus charakteristikų nustatymas;Gilieji neuroniniai tinklai;Mašininis mokymas;Author profiling;Machine learning;Deep learning
Abstract: Magistro darbe sprendžiamas autoriaus charakteristikų (lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo) nustatymo uždavinys, taikant automatinius metodus. Uždavinys, turint labai trumpus tekstus (vid. ~ 24 žodžių) ir nenorminę lietuvių kalbą, lietuvių kalbai yra sprendžiamas pirmą kartą. Darbe yra atsakoma į pagrindinę problemą: kaip teisingai pasirinkti metodus (jų parametrus, požymių tipą), kurie leistų kuo tiksliau automatiškai nustatyti autoriaus charakteristikas iš nenorminės lietuvių kalbos teksto (kai turimas tik pats tekstas, tačiau jokia kita informacija apie autorių nėra žinoma). Buvo atlikta metodų, taikomų kitoms kalboms, analizė; sudarytas savybių sąrašas. Parengtas nenorminės lietuvių kalbos tekstynas. Buvo atlikti eksperimentai su turimais duomenimis, išbandant įvairius prižiūrimo mašininio mokymo metodus bei giliuosius neuroninius tinklus (jų parametrus), pagrindinius teksto savybių tipus (leksines, simbolines savybes). Taip pat buvo įvertintas tikslumas ir nustatytas efektyviausias metodas (paprastasis daugianaris Bejeso metodas), teksto savybių tipas (simbolių n-gramos) (pastarasis leido pasiekti 84,3 %, 52,7 %, 79,6 %, 76,6 %, bei 79,1 % tikslumą, sprendžiant lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo charakteristikos nustatymo užduotis). Apibendrinus gautus rezultatus ir jų tikslumą, suformuluotos rekomendacijos, skirtos spręsti žmogaus charakteristikų (lyties, amžiaus, išsilavinimo, šeimyninės padėties bei asmenybės tipo) iš teksto nustatymo uždavinį, nenorminei lietuvių kalbai.
This research work describes the author profiling (gender, age, education, marital status and personality type) problem for the Lithuanian language, which has been solved using automatic machine learning methods. The main contribution of this work is the offered solutions for the very short texts (avg. ~ 24 words per text) and non-normative Lithuanian language. This research is a response to the fundamental problem: how to choose automatic methods (parameters, feature type) that could accurately identify the author profiling dimension values from the pure non-normative Lithuanian language texts (when no meta-information is known about the author). The related work analysis helped to reveal the automatic methods and feature types that are the most promising for the other languages The experiments were performed on the non-normative Lithuanian corpus (that was specifically prepared for this task), testing a variety of supervised machine learning methods (and the main features types: lexical and symbolic) and deep learning approaches. The evaluated accuracy revealed the most efficient method (Naive Bayes Multinomial) and feature type (Character NGram) (it reached 84,3 %, 52,7 %, 79,6 %, 76,6 % and 79,1 % of accuracy in gender, age, education, marital status and personality type detection task, responsively). Based on the obtained results, the recommendations for the author profiling (gender, age, education, marital status and personality type dimensions) and non-normative Lithuanian language were formulated.
Internet: https://hdl.handle.net/20.500.12259/36690
Appears in Collections:2018 m. (IF mag.)

Files in This Item:
Show full item record

Page view(s)

78
checked on Oct 13, 2019

Download(s)

112
checked on Oct 13, 2019

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.