Šnekamosios kalbos identifikavimas
Brazauskas, Deividas |
Šiame darbe gilinamasi į skirtingų autorių naudojamus šnekamosios kalbos identifikavimo metodus ir pasiektus rezultatus, kadangi nėra viešai prieinamo šnekamosios kalbos identifikavimo įrankio, kuris taip galėtų atlikti klasifikavimą ir lietuvių kalba. Tiriamos jau egzistuojančios atviro kodo sistemos, kurių veikimas šiuo metu nėra pilnas, tai yra pateiktas nepilnas programinis kodas, nėra laisvai prieinami sistemų naudojami duomenų rinkiniai, didelė dalis sistemų po jų sukūrimo apleistos, kas trukdo tinkamai atkartoti sukurtų sistemų veikimą. Darbe bandoma sistemas optimizuoti, apjungti naudojant bendrą duomenų rinkinį, atlikti kryžminį sistemų patikrinimą ir apjungti gautus rezultatus naudojant meta-klasifikatorių, kad būtų išgaunamas kuo didesnis klasifikavimo tikslumas. Taip pat, didesniam klasifikavimo tikslumui išgauti yra panaudojamas šnekos atpažinimo servisas, gauti rezultatai yra sujungiami su atviro kodo sistemų rezultatais naudojant meta-klasifikatorių, taip padidinant klasifikavimo tikslumą. Darbe atlikti 4 eksperimentai: sutvarkomas atviro kodo sistemų programinis kodas; atliekamas sistemų kryžminį patikrinimą, apjungiami gauti rezultatai; panaudojamas šnekos atpažinimo servisas; sujungiamas sistemų sprendimas su šnekos atpažinimo gautais rezultatais apjungiant metaklasifikatoriumi. Atliktų eksperimentų pagalba buvo pasiektas statistiškai reikšmingas klasifikavimo tikslumo pagerėjimas. Darbo pabaigoje yra realizuojama darbo autoriaus sukurta nauja viešai prieinama žiniatinklio aplikacija, leidžianti bet kam klasifikuoti šnekamosios kalbos įrašus tarp vokiečių, anglų, ispanų, prancūzų ir lietuvių kalbų. Sukurta žiniatinklio aplikacija leidžia atpažinti įraše naudojamą kalbą iš nurodyto anksčiau kalbų diapazono. Darbo pagrindu parengtas mokslinis straipsnis, kuris priimtas „Lietuvos magistrantų informatikos ir IT tyrimai“ konferencijoje 2021 gegužės 14 dieną, ir išspausdintas konferencijos darbų medžiagoje.
This thesis delves into the spoken language identification methods used by different authors and the results achieved, as there is no publicly available spoken language identification tool that could perform classification in Lithuanian language as well. Existing open source systems are examined, which are currently incomplete, meaning that an incomplete source code is provided, data sets used by the systems are not freely accessible and a large part of the systems have been abandoned after their creation, which hinders the proper replication of their functionality. This thesis attempts to optimize these systems, combine them using a common data set, perform cross-validation and combine the obtained results using a meta-classifier in order to obtain the highest possible classification accuracy. In order to obtain the highest classification accuracy a speech recognition service is used, the obtained results are combined with the results of open source systems using a meta-classifier, thus increasing the classification accuracy. 4 experiments are performed in this thesis: t of these systems and combine the obtained results; use speech recognition services; combine system results with the results of speech recognition by combining them with a meta-classifier. At the end of this thesis, a new publicly available web application was developed by the author of this thesis, which allows anyone to classify spoken language recordings between German, English, Spanish, French and Lithuanian. The created web application allows recognition of spoken language in a record in the range of languages specified previously. A scientific paper, based on this thesis, was prepared for „Lietuvos magistrantų informatikos ir IT tyrimai“ conference held on 2021 May 14th and will be published in the conference proceedings.