Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/124106
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Balčas, Justas
Title: Įvardytų esinių atpažinimas lietuvių, azerų, rusų kalboms
Other Title: Named entity recognition for Lithuanian, Azeri and Russian languages
Extent: 70 p.
Date: 29-May-2014
Keywords: įvardyti esiniai;esinių atpažinimas;lietuvių esiniai;azerų esiniai;rusų esiniai;named entity;entity recognition;lithuanian entities;azeri entities;russian entities
Abstract: Informacijos kiekis didėja ir jis vis dažniau yra pasiekiamas elektronine forma. Įvardytų esinių atpažinimas reikalingos daugelyje sričių : media monitoringe, policijos ataskaitų, ligonio istorijos analizei. Rankinis dokumentų anotavimas reikalauja didelių išteklių, o anotuoti didelius bei nuolat besikeičiančius tekstinės informacijos dokumentus, praktiškai neįmanoma. Darbo metu apžvelgti esami darbai ir straipsniai įvardytų esinių atpažinimo tematika lietuvių, azerų, rusų kalboms. Surinkti įvardytų esinių žodynai lietuvių, azerų, rusų kalboms (miestų, šalių, organizacijų, vietovių, asmenvardžių), kurie reikalingi paruošti automatinį įvardytų esinių žymėjimo įrankį. Surinkti žodynai ir parašytos JAPE taisyklės pritaikytos GATE Developer platformai, su kuria suanotuoti surinkti visi turimi tekstynai įvardytų esinių atpažinimui. Tekstynams, suanotuotiems taisyklėmis grįstu metodu, paruošti programiniai kodai, kurie apmoko Maksimalios entropijos ar CRF metodą (pasirinktinai) ir įvertiną tikslumą, išsamumą ir f įvertį. Keičiant mokymo imtį, buvo stebimas mokymo metodų pasiekiamas rezultatas. Gauti geri rezultatai suteikė pagrindą ir informacijos kurias vietas reikia tobulinti, kad būtų pasiekti geresni rezultatai su mažesne mokymo imtimi.
The amount of information is increasing and more and more it is available in electronic form. Named Entity Recognition needed in many areas: media monitoring , police reports , patient history analysis. Manual document annotation requires significant resources and annotating large and constantly changing textual information documents it`s practically impossible . In this work reviewed of existing works and articles in Named Entity Recognition for Lithuanian , Azeri and Russian languages. Collected Named Entities dictionaries for Lithuanian, Azeri and Russian languages (cities, countries, organizations , locations , personal names ) , which are necessary to prepare the automatic Named Entity Recognition tool. Collected dictionaries and written JAPE rules applied for GATE Developer Platform, with which annotated collected corpora for Named Entity Recognition. For corpora, annotated with rule-based method, prepared script which trains Maximum Entropy or CRF ( optional) and counts accuracy , precision and F measure. Changing the training sample size were observed trained methods reachable results. Got good results which provided useful information for improvements in order to achieve better results with less training samples.
Internet: https://hdl.handle.net/20.500.12259/124106
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:VDU, ASU ir LEU iki / until 2018

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.