Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/120466
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Širvinskas, Raimondas
Title: Dokumentų pirminio apdorojimo įrankių skirtų lietuvių, rusų ir azerų kalboms analizė ir sukūrimas
Other Title: Analysis and development of document preprocessing tools for lithuanian, russian and azeri Languages
Extent: 60 p.
Date: 29-May-2014
Keywords: dokumentai;tekstai;pirminis apdorojimas;informacijos gavyba;documents;texts;preprocessing;information retrieval
Abstract: Šiame darbe atlikta pirminio teksto apdorojimo proceso apžvalga. Išskirti pagrindiniai pirminio teksto apdorojimo etapai. Atlikta esamų pirminio teksto apdorojimo metodų apžvalga bei galimybių analizė. Priimti įrankių bei metodų pasirinkimo sprendimai. Antrojo tiriamojo darbo metu kurta stemmer įrankio programa pernaudota ir papildyta jau esamais stemmer algoritmais skirtingoms kalboms. Trečiojo tiriamojo darbo metu kurtas kalbos identifikavimo metodas palygintas su Apache Tika kalbos identifikavimo metodu ir palyginti gauti rezultatai. Atlikta Apache UIMA ir LingPipe karkasų apžvalga, įvertinus galimybes ir jau esamus pirminio teksto apdorojimo metodus pasirinkta tolimesniems tobulinimams LingPipe sistema. Pagal anksčiau apžvelgtus pirminio teksto apdorojimo metodus atrinktos bibliotekos padėsiančios atlikti reikiamus veiksmus ir LingPipe sistemai sukurti trūkstami pirminio teksto apdorojimo metodai. Metodai įdiegti į LingPipe sistemą ir aprašytos jų naudojimo instrukcijos vartotojams. Apibendrinus atliktą darbą pateikti darbo rezultatai ir išvados. Taip pat apsibrėžti tolimesnių tyrimų darbai.
This paper conducted the initial review process for text processing. Isolate the basic original text processing steps. Performed the original text of the existing methods of treatment of and opportunities for analysis. Adopt the tools and methods of selection decisions. Second test work program was created Stemmer tool reused and additional to existing algorithms for different languages Stemmer. The third research work created language identification method compared with Apache Tika language identification method and compared the results. Done Apache UIMA and LingPipe frameworks review, assessment of potential and existing primary text preprocessing method selected for assessing improvements LingPipe system. According to the previously reviewed here: the original text preprocessing methods selected for the library to help you perform the necessary steps to create a system and LingPipe missing the original word-preprocessing methods. Methods to implement LingPipe system and describe their operating instructions for users. Summarizing the work of present findings and conclusions. Also defined further research work.
Internet: https://hdl.handle.net/20.500.12259/120466
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:VDU, ASU ir LEU iki / until 2018

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

6
checked on May 1, 2021

Download(s)

40
checked on May 1, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.