Tekstinių dokumentų klasterizavimo metodų tyrimas
Author | Affiliation | |||
---|---|---|---|---|
LT | ||||
Date |
---|
2015 |
Tekstinės informacijos paieškoje svarbiausia yra tikslumas ir greitis. Su plačiai vartojamomis kalboms yra atlikta daug tyrimų ir įdiegta technologijų, kurios palengvina informacijos paiešką, tačiau retesnėms kalboms problema išlieka opi. Sudaryti modeliai yra netinkami dėl kalbų skirtumų, todėl vis dar nėra aiškiai apibrėžta, kokie metodai yra geriausi tiksliai ir greitai paieškai šiomis kalbomis atlikti. Šiame straipsnyje nagrinėjami metodai, kuriais dokumentų grupavimas vykdomas remiantis tik duomenų analize, t. y., nežinant ar nereaguojant į specifines kalbos savybes.
Precise and fast information retrieval is quite explicated in wide known languages, but it is still unknown what methods is the best to make retrieval faster and more precise for less known languages, because each language requires different solution to satisfy user's information needs. In this article we will describe methods which could be suitable for most of languages, because we will analyse documents only in automatically way without a priori information about properties of language.