Požymių atrinkimas tekstų kategorizavime
Automatinis teksto kategorizavimas paprastai naudojamas ten kur susiduriama su milžiniškais informacijos srautais, pavyzdžiui web paieškos sistemose, patentų klasifikavime, nepageidaujamų laiškų filtravime ar masiniame plagijuotų tekstų nustatyme. Dauguma požymių atrinkimo algoritmų skirtų tekstų kategorizavimui yra palyginti lėti kuomet susiduriama su dideliais duomenų kiekiais, todėl net ir kelis kartus greitesnis požymių atrinkimo algoritmas gali žymiai sutrumpinti duomenų apdorojimo laiką. Kita problema yra per didelis atrenkamų požymių skaičius. Tai reiškia, jog naudojami požymių atrinkimo algoritmai nesugeba atrinkti pakankamai mažų ir kompaktiškų požymių poaibių. Darbe aprašyti tekstų kategorizavimo eksperimentiniai tyrimai panaudojant naujai siūlomus požymių atrinkimo algoritmus kartu su chi – kvadrato ir informacijos išlošimo metodais. Gauti rezultatai rodo, jog pasiūlyti algoritmai gali būti greitesni ir atrinkti mažiau požymių lyginant su populiariausiais algoritmais tekstų kategorizavime.
Text categorization techniques are used for real-time sorting of email, search engines, patent classification or plagiarism checker systems. Many popular feature selection techniques are inefficient when handling large datasets. Moreover most of them are all greedy in nature and thus may not be optimal according to some criterion. Such algorithms are unable to find small feature subsets. The aim of my thesis is to develop an efficient and fast algorithms for feature selection. The experimental results demonstrate that my approach is a robust and effective approach to find subsets of features with smaller size compared to chi-square and information gain feature selection algorithms.