Automatizuotas tekstyno tikrinių daiktavardžių žymėjimas
Date |
---|
2004 |
Straipsnyje aprašyti tikrinių daiktavardžių (asmenvardžių ir vietovardžių) žymėjimo algoritmas ir jo tyrimas, pritaikytas Lietuvių kalbai. Metodas veikia 2 etapais: informacijos kaupimas resursų failuose; teksto elementų, pagal sukauptą informaciją, bei apibendrintus šablonus, paieška ir žymėjimas. Kadangi orientuotasi į kuo aukštesnį tikslumo pasiekimą, todėl abejotinais atvejais kreipiasi į vartotoją. Šis algoritmas yra adaptyvus – t.y. jo efektyvumas nuolat auga, priklausomai nuo pratestuotų tekstų kiekio. Gautas aukštas efektyvumas užtikrina tolimesnes metodų taikymo galimybes įvairioms sritims.
In this paper we present the algorithm and its investigation. This algorithm annotates proper nouns (names and places) and works with Lithuanian language texts. The methods in this algorithm act in two stages: the information is collected to recourse files; the recourse files are used for searching and annotating particular proper nouns. Methods are orientated to highest precision achievement, so in doubtful cases, it asks user to answer the question. This algorithm’s effectiveness grows dependently from amount of analyzed texts. High effectiveness decelerates methods, which can be used for different kind of spheres.