Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/123792
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Gvardinskas, Mindaugas
Title: Požymių atrinkimas tekstų kategorizavime
Other Title: Feature selection for text categorization
Extent: 56 p.
Date: 31-May-2010
Keywords: teksto kategorizavimas;požymių atrinkimas;klasterizavimas;text categorization;feature selection;clustering
Abstract: Automatinis teksto kategorizavimas paprastai naudojamas ten kur susiduriama su milžiniškais informacijos srautais, pavyzdžiui web paieškos sistemose, patentų klasifikavime, nepageidaujamų laiškų filtravime ar masiniame plagijuotų tekstų nustatyme. Dauguma požymių atrinkimo algoritmų skirtų tekstų kategorizavimui yra palyginti lėti kuomet susiduriama su dideliais duomenų kiekiais, todėl net ir kelis kartus greitesnis požymių atrinkimo algoritmas gali žymiai sutrumpinti duomenų apdorojimo laiką. Kita problema yra per didelis atrenkamų požymių skaičius. Tai reiškia, jog naudojami požymių atrinkimo algoritmai nesugeba atrinkti pakankamai mažų ir kompaktiškų požymių poaibių. Darbe aprašyti tekstų kategorizavimo eksperimentiniai tyrimai panaudojant naujai siūlomus požymių atrinkimo algoritmus kartu su chi – kvadrato ir informacijos išlošimo metodais. Gauti rezultatai rodo, jog pasiūlyti algoritmai gali būti greitesni ir atrinkti mažiau požymių lyginant su populiariausiais algoritmais tekstų kategorizavime.
Text categorization techniques are used for real-time sorting of email, search engines, patent classification or plagiarism checker systems. Many popular feature selection techniques are inefficient when handling large datasets. Moreover most of them are all greedy in nature and thus may not be optimal according to some criterion. Such algorithms are unable to find small feature subsets. The aim of my thesis is to develop an efficient and fast algorithms for feature selection. The experimental results demonstrate that my approach is a robust and effective approach to find subsets of features with smaller size compared to chi-square and information gain feature selection algorithms.
Internet: https://hdl.handle.net/20.500.12259/123792
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:VDU, ASU ir LEU iki / until 2018

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

5
checked on May 1, 2021

Download(s)

4
checked on May 1, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.