Klasterizavimo algoritmų taikymas įmonių veiklos nustatyme Lietuvos kontekste
Įmonių veiklos kodų nustatymas yra svarbus uždavinys, siekiant greitai ir efektyviai kurti ir / ar naujinti privačias duomenų bazes, kurias sudaro tiek viešos, tiek privačios įmonės. Lietuvos Respublikoje, kaip ir Europos Sąjungoje naudojama NACE pagrindu paremta, įmonės veiklos klasifikavimo sistema, kurią sudaro šeši ženklai, pirmieji keturi žymi įmonių tipų skirstymus, o paskutiniai du ženklai paliekami individualiam valstybės įmonės tipų skirstymui. Magistro baigiamojo darbo tikslas pritaikyti klasterizavimo algoritmus įmonių ekonominės veiklos nustatyme. Tyrime atliktas kelių šaltinių duomenų apjungimas, duomenų valymas, gauto duomenų rinkinio analizė, atliktas įterpinių kūrimas, požymių išrinkimas ir klasterizavimo algoritmų taikymas. Galutinį duomenų rinkinį sudaro 36471 įmonės aprašymas. Nustatyta, kad vidutinis įmonės aprašymas susideda iš 14 ne funkcinių žodžių. Pastebėta, kad Lietuvoje daugiausiai įmonių susiję su didmenine ir mažmenine prekyba, žemės ūkiu ir paslaugų sektoriumi. Tyrime nustatyta, kad gaunant įterpininius tinkamiausi LaBSE ir Word2Vec metodai, o požymių išrinkimui principinė komponenčių analizė ir UMAP. Atlikta parametrų paieška klasterizavimo metodams, kuriems po to, atlikta vidinė ir išorinė rezultatų analizė. Išorinė klasterių analizė parodė, jog įmonių klasterizavimui tinkamiausia naudoti k-vidurkių ir Gauso maišos modelius, o vidinė klasterių analizė parodė, jog gaunami klasteriai nėra gryni.
Accurate identification of the activity codes of enterprises is a crucial task in enabling the effective creation or updating of databases covering both public and private companies. The Republic of Lithuania and other European Union countries, the enterprise classification system operates under NACE, utilizing a six-digit framework. The initial four digits represent overarching enterprise classifications, where last two digits describe specific categorizations inside the country's industries. This Master thesis aims to apply clustering methods to identify the economic activity of enterprises. The research involves merging multi-source datasets, cleaning of data, explanatory data analysis, retrieval of embeddings, dimensionality reduction and clustering method application. Prepared dataset has 36471 observations. Two main ideas were observed in the data: (1) without stopwords the average length of a description is 14 words; (2) wholesale, retail, agriculture, and service industry are the most frequent enterprise activities. This thesis finds that LaBSE and Word2Vec are most prominent methods for embeddings retrieval, while principal component analysis and UMAP are most suitable for dimensionality reduction. Parameter search was conducted for clustering algorithms, followed by intra-cluster and inter-cluster analysis. Inter-cluster analysis showed that satisfactory results in clustering were achieved by k-means and Gaussian mixture models. Intra-cluster analysis showed that final clusters are not pure.