Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/124132
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Streikutė, Gintarė
Title: Dokumentų klasterizavimas
Other Title: Document clustering
Extent: 54 p.
Date: 29-May-2014
Keywords: dokumentai;klasterizavimas;klasterizavimo metodai;documents;clustering;clustering methods
Abstract: Šiandieninėje visuomenėje informacija užima labai svarbų vaidmenį. Lietuviškos informacijos gausa sudaro kliūtis greitai ir kokybiškai duomenų paieškai. Įsivaizduokite jei jums reikėtų parašyti straipsnį kokia nors tema, ieškant informacijos bibliotekoje, kurioje knygos būtų sudėliotos ne pagal temas, o pagal viršelio spalvą. Tai, ko gero, užtruktų gana ilgai, būtų labai sunku ieškoti reikiamos informacijos. Šis pavyzdys puikiai atspindi praktinę klasterizavimo naudą. Pasitelkiant klasterizavimą, informaciją galima suskirstyti į grupes pagal dokumentų temas. Šio darbo metu sieksime išsiaiškinti, ar egzistuojantys klasterizavimo metodai geba suklasterizuoti lietuviškus tekstynus, ar klasterizavimo metu gautiems rezultatams įtakos turi dokumentų parengimas, ir ar kosinuso panašumo mato įdiegimas į įrankį Weka pagerina gaunamus klasterizavimo rezultatus. Didelės apimties dokumentai buvo parengiami dviem skirtingais būdais kai dokumentai sudaryti iš atskirų žodžių ir simbolinių n-gramų rinkinių. Taip pat dokumentai buvo parengiami darbui su įrankiu Weka. Skirtingais būdais parengti dokumentai buvo perkonvertuoti į *.arff formatą. Buvo atlikti bandymai, bei aprašyti dokumentų klasterizavimui skirto įrankio Weka klasterizavimo metodai. Atlikus analizę apskaičiavome klasterizavimo kokybės vertinimus: tikslumą, išsamumą ir f- matą. Į pasirinktą klasterizavimui skirtą įrankį Weka įdiegėme kosinuso panašumo matą, bei atlikome bandymus su skirtingai paruoštais dokumentais.
In today's society, information plays a very important role. Abundance of lithuanian information constitute an obstacle to quickly and efficiently search the data. Image if you need to write an article finding information in the library where the books are arranged not by topic, but by the color of the cover. It probably would take quite a long time and also would be very difficult to search for relevant information. This is a perfect example of the practical benefits of clustering. Through clustering, information can be divided into groups according to the document topic. In this work we will try to find out, whether the existing clustering methods are able to cluster lithuanian texts, whether obtained clustering results affected by preparation of documents, and also if cosine similarity measure tool installation into Weka improves clustering results that we obtain. Voluminous documents were prepared in two different ways – when documents consists of individual words and when they consists symbolic set of n-grams. Also documents have been prepared to work with the Weka tool. In different ways prepared documents was reconverted to *.arff format. Tests were performed and also described clustering methods of tool Weka. Calculated the clustering quality assessment after the analysis: accuracy, completeness and f-measure. Into tool for clustering Weka we have installed the cosine similarity and performed tests with variously prepared documents.
Internet: https://hdl.handle.net/20.500.12259/124132
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:VDU, ASU ir LEU iki / until 2018

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

6
checked on May 1, 2021

Download(s)

88
checked on May 1, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.