Daugiamačių duomenų klasifikavimo rezultatų vizuali analizė
Damušienė, Jurgita |
Šiame magistro diplominiame darbe nagrinėjamos daugiamačių duomenų klasifikavimo rezultatų vizualios analizės problemos. Klasifikavimo uždavinių tikslas yra ne tik sukurti tikslų klasifikatorių, bet ir gautus rezultatus pateikti tokia atvaizdavimo forma, kuri padėtų tyrinėtojui lengvai interpretuoti gautus rezultatus, patvirtinti ar paneigti pradžioje iškeltas hipotezes ar formuoti naujas. Darbe buvo nagrinėtos dvi sistemos (Orange Canvas ir Weka), kuriose buvo realizuoti keli klasifikavimo metodai. Orange sistemoje analizuoti du klasifikavimo algoritmai: klasifikavimo medis ir taisyklių generatorius, klasifikavimo medžio rezultatai buvo pateikti dviem formom: grafinis klasifikavimo medžio atvaizdavimas ir klasifikavimo medžio struktūrinė peržiūra. Vadinasi Orange sistemoje iš viso nagrinėti trys klasifikavimo rezultatų grafiniai atvaizdavimai. Weka sistemoje nagrinėtas vienas klasifikatorius: Naive Bayes algoritmas, kurio rezultatas atvaizduotas stilizuotu medžiu. Gauti dviejų sistemų rezultatai buvo lyginami norint sužinoti, kuris efektyvesnis. Nustatyta, kad geriausiai daugiamačių duomenų klasifikavimo rezultatus atvaizduoja klasifikavimo medžio grafinis atvaizdavimas. Klasifikavimo rezultatus integravus į daugiamačių duomenų projekcijų vaizdus, gautus daugiamačių skalių metodu, nubraižyti grafikai stebėti irisų duomenų išsibarstimą pagal tiriamas klases. Grafikai nubraižyti pasinaudojus taisyklių generatoriaus sukurtomis taisyklėmis. Viso gauti šeši grafikai, kurie atspinti klasių išsibarstimą xy plokštumoje.
Visual analysis of the multidimensional data classification results were analyzed in this master thesis. Classification problem is not only to create the right classifier, but also to present the obtained results by such a visual form, that help us to interpret the obtained results, to confirm, reject or form new hypothesis. Two systems (Orange Canvas and Weka) were analyzed in this work, where some classification approaches were realized. Two classification algorithms (classification tree and rule induction method) were analyzed. The classification tree results were performed in two ways: graphic classification tree and structure classification tree. Thus, three graphic classification results were analyzed in Orange system. One classifier was approached in Weka system. It was Naïve Bayes algorithm and results were pictured in stylized tree. The obtained results of two systems were compared to find which of them is more effective. Therefore, the best multidimensional data classification results are shown up by the graphic classification tree picture. Classification results integrated into mapping of multidimensional data to plane, obtained by multidimensional scaling, graphs are draw to watch iris data scatter by classes. The graphs were drawn using rule induction. Six graphs demonstrate three classes in xy plane.