Požymių atrinkimas tekstų kategorizavime

Gvardinskas, Mindaugas

Use this url to cite ETD: https://hdl.handle.net/20.500.12259/123792

Požymių atrinkimas tekstų kategorizavime

Type of publication (PDB)

Magistro darbas / Master Thesis

Field of Science

Informatika / Informatics (N009)

Type of publication

type::text::thesis::master thesis

Title

Požymių atrinkimas tekstų kategorizavime

Other Title

Feature selection for text categorization

Author

Gvardinskas, Mindaugas

Advisor

Tamošiūnaitė, Minija

Extent

56 p.

Thesis Defence Date

2010-05-31

Keywords (lt)

Keywords (en)

Abstract (lt)

Automatinis teksto kategorizavimas paprastai naudojamas ten kur susiduriama su milžiniškais informacijos srautais, pavyzdžiui web paieškos sistemose, patentų klasifikavime, nepageidaujamų laiškų filtravime ar masiniame plagijuotų tekstų nustatyme. Dauguma požymių atrinkimo algoritmų skirtų tekstų kategorizavimui yra palyginti lėti kuomet susiduriama su dideliais duomenų kiekiais, todėl net ir kelis kartus greitesnis požymių atrinkimo algoritmas gali žymiai sutrumpinti duomenų apdorojimo laiką. Kita problema yra per didelis atrenkamų požymių skaičius. Tai reiškia, jog naudojami požymių atrinkimo algoritmai nesugeba atrinkti pakankamai mažų ir kompaktiškų požymių poaibių. Darbe aprašyti tekstų kategorizavimo eksperimentiniai tyrimai panaudojant naujai siūlomus požymių atrinkimo algoritmus kartu su chi – kvadrato ir informacijos išlošimo metodais. Gauti rezultatai rodo, jog pasiūlyti algoritmai gali būti greitesni ir atrinkti mažiau požymių lyginant su populiariausiais algoritmais tekstų kategorizavime.

Abstract (en)

Text categorization techniques are used for real-time sorting of email, search engines, patent classification or plagiarism checker systems. Many popular feature selection techniques are inefficient when handling large datasets. Moreover most of them are all greedy in nature and thus may not be optimal according to some criterion. Such algorithms are unable to find small feature subsets. The aim of my thesis is to develop an efficient and fast algorithms for feature selection. The experimental results demonstrate that my approach is a robust and effective approach to find subsets of features with smaller size compared to chi-square and information gain feature selection algorithms.

Language

Lietuvių / Lithuanian (lt)

URI

https://hdl.handle.net/20.500.12259/123792

Defended

Taip / Yes

Access Rights

Atviroji prieiga / Open Access

File(s)

mindaugas_gvardinskas_md.pdf (809 KB)