Genų taikinių nustatymas ir glioblastomos potipių identifikavimas taikant mašininio mokymo metodus
Šiame darbe sudaryti ir įvertinti smegenų vėžio (glioblastomos) genų taikinių atrankos ir glioblastomos potipių klasifikavimo algoritmai, siekiant tiksliausiai nustatyti glioblastomos potipį panaudojant mažiausią genų taikinių rinkinį. Atliekama tyrimo literatūros apžvalga, nustatoma potipių klasifikavimo metodika, atrenkami tinkamiausi genai glioblastomos potipiui nustatyti, sudaromi atpažinimo algoritmai ir įvertinamas jų klasifikavimo tikslumas. Tinkamiausi genai atrenkami naudojant keturis požymių atrankos metodus (χ2 testą, F testą, atsitiktinio miško algoritmą, minimalios perteklinės informacijos ir maksimalaus tinkamumo požymių atrinkimo metodą), klasifikavimui naudojami šeši klasifikavimo metodai (atraminių vektorių metodas, logistinė regresija, artimiausių kaimynų metodas, Naiviojo Bajeso klasifikatorius, atsitiktinio miško algoritmas, dirbtiniai neuroniniai tinklai). Visais metodais pasiektas aukštas glioblastomų potipio atpažinimo tikslumas (75-86 %). Metodų klasifikavimo tikslumas statistiškai reikšmingai nesiskiria. Glioblastomos potipio tikslus nustatymas panaudojant genetinę informaciją leidžia prognozuoti ligos išeitis ir sėkmingai parinkti individualizuotą gydymą.
In this study, the selection of gene targets of brain cancer glioblastoma is carried out, and the classification of glioblastoma subtypes is performed to most accurately identify the glioblastoma subtype using the smallest set of gene targets. A review of the scientific literature is performed, the methodology of glioblastoma subtype classification is determined, the most suitable genes for the identification of glioblastoma subtype are selected and the recognition algorithms are developed. The most suitable genes are selected using 4 different feature selection methods (χ2 test, F test, Random Forest algorithm, Minimum Redundancy Maximum Relevance algorithm), and 6 different classification methods are used for classification (Support Vector Machine, Logistic Regression, k-Nearest Neighbors algorithm, Naive Bayes classifier, Random Forest algorithm, Artificial Neural Networks). All methods achieved high classification accuracy (75-86 %), and the recognition accuracy of the methods does not differ statistically significantly.