Kreivinių komponenčių analizės metodas daugiamačiams duomenims vizualizuoti
Purkina, Jelena |
Šio darbo tikslas – išanalizuoti kreivinių komponenčių metodą daugiamačiams duomenims vizualizuoti bei ištirti rezultatų priklausomybę nuo mokymo parametrų ir svorio funkcijų. Programiškai realizuotas kreivinių komponenčių analizės metodas, skirtas daugiamačiams duomenims vizualizuoti bei rezultatų priklausomybei nuo mokymo parametrų ir svorio funkcijų tirti. Programa sukurta Matlab aplinkoje. Tyrimui naudotos trys daugiamačių duomenų aibės: irisų, Lietuvos miestų ir miestelių gyventojų skaičiaus ir Europos šalių ekonomikos duomenys. Tyrimas buvo dviejų etapų. Pirmame etape vyko vizualizavimo rezultatų priklausomybės nuo mokymo parametrųir svorio funkcijų tyrimas. Buvo pastebėta, kad norint gauti mažą paklaidą, kiekvienai svorio funkcijai reikėjo parinkti vis kitus mokymo parametrus. Mažiausios paklaidos buvo gautos taikant sigmoidinę svorio funkciją lyginant su rezultatais, gautais naudojant slenkstinę ar eksponentinę. Antrame etape buvo lyginami kreivinių komponenčių analizės bei daugiamačių skalių metodais gauti rezultatai. Daugeliu atvejų daugiamačių skalių metodu gautos paklaidos žymiai nesiskyrė nuo gautų kreivinių komponenčių analizės metodu. Tačiau lyginant šiuos metodus laiko prasme, kreivinių komponenčių analizės metodu skaičiavimai užtrunka tris kartus trumpiau.
The aim of the master thesis is to investigate a curvilinear component analysis for visualization of multidimensional data and to examine the dependence of the results on the training parameters and the weight functions. The curvilinear component analysis is implemented in Matlab. The implementation is designed for the experimental investigations. Three multidimensional data sets have been used: iris, population of Lithuanian cities and towns, and economic data of the European Union countries. The investigation consists of two stages. In the first stage, the dependence of the visualization results on the training parameters and the weight functions has been examined. It has been observed that, in order to get a small projection error, it is necessary to select the proper training parameters to each weight function. The smallest errors have been obtained applying the sigmoid function when comparing the results, obtained using the threshold and exponential functions. In the second stage, the results, obtained by the curvilinear component analysis and the multidimensional scaling, have been compared. In many cases, the errors, obtained by the multidimensional scaling, do not differ significantly from the errors, obtained by the curvilinear component analysis. However, the computation by the curvilinear component analysis takes three times less.