Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/34512
Type of publication: Magistro darbas / Master thesis
Field of Science: Informatika / Informatics
Author(s): Bumbulis, Linas
Title: Diktorių panašumo įvertinimo internetinė sistema
Other Title: Web system for identification of speaker similarity
Extent: 56 p.
Date: 23-May-2017
Event: Vytauto Didžiojo universitetas. Informatikos fakultetas. Sistemų analizės katedra.
Keywords: Šnekos atpažinimas;Garsynas;Optimalus garsynas;Internetinė sistema;Speech recognition;Speech corpus;Optmized speech corpus;Web system
Abstract: Garsynas yra svarbi kompiuterinės garso atpažinimo programos dalis ir yra reikalinga tam, kad būtų atpažįstama žmogaus šneka. Dažnai garsynas tampa neoptimalus, kadangi į jį patenka duomenys, surinkti iš panašius balso požymius turinčių žmonių. Optimalaus garsyno problemą aktualu spręsti tam, kad būtų užtikrinta balso pavyzdžių įvairovė garsyne, o balso atpažinimo programos galėtų atpažinti kiek įmanoma įvairesnius balso pavyzdžius. Magistrinio darbo metu sukurta internetinė sistema, kuria nuotoliniu būdu renkami balso pavyzdžiai. Tokia sistema yra naudinga, nes gali sumažinti garsyno surinkimo kaštus, apimtis ir užtikrinti, kad balso pavyzdžiai bus įrašyti realios vartosenos aplinkoje. Darbe taip pat aprašoma sprendžiama mokslinė problema – diktorių, iš kurių perskaitytų tekstų sudarytas akustinis modelis, ir naujų diktorių garso įrašų palyginimas taikant įvairius panašumo matus. Keliamos ir tikrinamos hipotezės, nusakančios, ar balso pavyzdys yra pakankamai nepanašus į garsyne esančius kalbėtojus ir gali būti laikomas tinkamu įtraukti į akustinį modelį. Tikrinama, kaip atpažinimo kokybę įtakoja balso pavyzdžiuose dirbtinai pridėtas skirtingų lygių triukšmas, Gauso mišinių skaičius fonemai modeliuoti, esantis tarp 1 ir 25. Galiausiai pateikiamos rekomendacijos, padedančios surinkti optimalų garsyną.
Speech corpus is one of the most important parts of speech recognition related programs and is essential for the process of human voice recognition. Sometimes speech corpus become non-optimal because it contains the data gathered from speakers who have related voice features. It is essential to solve optimal speech corpus problem in order to ensure speaker diversity from which speech corpus is made, thus enabling speech recognition programs to recognize wide range of different voices. Web system which allows to gather voice examples remotely was created during the process of writing this master thesis. Such system is useful because it allows to reduce the cost of speech corpus collection, the size of the corpus and ensure that speech examples will be recorded in daily usage conditions. The scientific problem is being solved in this master thesis as well: speakers who were participating in the creation of the acoustic model and new speakers are being compared according to different similarity measures. Hypotheses that allow to determine whether voice example is enough different from those which are included in acoustic model are being raised and tested. Research of the noise impact on speech recognizer results is tested with different noise levels, as well as the impact of Gaussian Mixture Models (GMM) when phoneme is modeled with 1 to 25 GMM. Finally, recommendations for gathering optimal speech corpus are proposed.
Internet: https://eltalpykla.vdu.lt/1/34512
https://hdl.handle.net/20.500.12259/34512
Appears in Collections:2017 m. (IF mag.)

Files in This Item:
linas_bumbulis_md.pdf2.98 MBAdobe PDF   Restricted AccessView/Open   Request a copy

Show full item record

Page view(s)

64
checked on Oct 14, 2019

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.