Dokumentų pirminio apdorojimo įrankių skirtų lietuvių, rusų ir azerų kalboms analizė ir sukūrimas

Širvinskas, Raimondas

Use this url to cite ETD: https://hdl.handle.net/20.500.12259/120466

Dokumentų pirminio apdorojimo įrankių skirtų lietuvių, rusų ir azerų kalboms analizė ir sukūrimas

Type of publication (PDB)

Magistro darbas / Master Thesis

Field of Science

Informatika / Informatics (N009)

Type of publication

type::text::thesis::master thesis

Title

Dokumentų pirminio apdorojimo įrankių skirtų lietuvių, rusų ir azerų kalboms analizė ir sukūrimas

Other Title

Analysis and development of document preprocessing tools for lithuanian, russian and azeri Languages

Author

Širvinskas, Raimondas

Advisor

Krilavičius, Tomas

Extent

60 p.

Thesis Defence Date

2014-05-29

Keywords (lt)

Keywords (en)

Abstract (lt)

Šiame darbe atlikta pirminio teksto apdorojimo proceso apžvalga. Išskirti pagrindiniai pirminio teksto apdorojimo etapai. Atlikta esamų pirminio teksto apdorojimo metodų apžvalga bei galimybių analizė. Priimti įrankių bei metodų pasirinkimo sprendimai. Antrojo tiriamojo darbo metu kurta stemmer įrankio programa pernaudota ir papildyta jau esamais stemmer algoritmais skirtingoms kalboms. Trečiojo tiriamojo darbo metu kurtas kalbos identifikavimo metodas palygintas su Apache Tika kalbos identifikavimo metodu ir palyginti gauti rezultatai. Atlikta Apache UIMA ir LingPipe karkasų apžvalga, įvertinus galimybes ir jau esamus pirminio teksto apdorojimo metodus pasirinkta tolimesniems tobulinimams LingPipe sistema. Pagal anksčiau apžvelgtus pirminio teksto apdorojimo metodus atrinktos bibliotekos padėsiančios atlikti reikiamus veiksmus ir LingPipe sistemai sukurti trūkstami pirminio teksto apdorojimo metodai. Metodai įdiegti į LingPipe sistemą ir aprašytos jų naudojimo instrukcijos vartotojams. Apibendrinus atliktą darbą pateikti darbo rezultatai ir išvados. Taip pat apsibrėžti tolimesnių tyrimų darbai.

Abstract (en)

This paper conducted the initial review process for text processing. Isolate the basic original text processing steps. Performed the original text of the existing methods of treatment of and opportunities for analysis. Adopt the tools and methods of selection decisions. Second test work program was created Stemmer tool reused and additional to existing algorithms for different languages Stemmer. The third research work created language identification method compared with Apache Tika language identification method and compared the results. Done Apache UIMA and LingPipe frameworks review, assessment of potential and existing primary text preprocessing method selected for assessing improvements LingPipe system. According to the previously reviewed here: the original text preprocessing methods selected for the library to help you perform the necessary steps to create a system and LingPipe missing the original word-preprocessing methods. Methods to implement LingPipe system and describe their operating instructions for users. Summarizing the work of present findings and conclusions. Also defined further research work.

Language

Lietuvių / Lithuanian (lt)

URI

https://hdl.handle.net/20.500.12259/120466

Defended

Taip / Yes

Access Rights

Atviroji prieiga / Open Access

File(s)

raimondas_sirvinskas_md.pdf (1.23 MB)