Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/41395
Type of publication: Straipsnis recenzuojamoje Lietuvos konferencijos medžiagoje / Article in peer-reviewed Lithuanian conference proceedings (P1f)
Field of Science: Informatika / Informatics (N009)
Author(s): Norkevičius, Giedrius;Raškinis, Gailius
Title: Lietuvių kalbos garsų trukmės modeliavimas klasifikavimo ir regresijos medžiais, naudojant didelės apimties garsyną
Other Title: Modeling phone duration of Lithuanian by classification and regression trees, using very large data set
Is part of: Informacinės technologijos 2007 : konferencijos pranešimų medžiaga, Kauno technologijos universitetas, 2007 m. sausio 31 d. - vasario 1 d. Kaunas : Technologija, 2007
Extent: p. 52-56
Date: 2007
Keywords: Garsų trukmė;Trukmės modeliavimas;Klasifikacijos ir regresijos medis;Phone duration;Duration modelling;Cart
Abstract: Šio tyrimo tikslas - sukurti modelį gebantį prognozuoti lietuvių kalbos garsų trukmes pagal kontekstinę informaciją. Tyrimui naudotas, garsą bei jo kontekstą aprašantis, 15-os požymių rinkinys, svarbiausi jų: prognozuojamo garso identifikatorius, gretimų garsų identifikatoriai, garsų skaičius skiemenyje. Darbe aprašomas eksperimentas, kurio metu lietuvių kalbos garsų trukmės buvo prognozuojamos naudojant klasifikavimo ir regresijos medžius. Pateikiami eksperimentų rezultatai keičiant šiuos modelio parametrus: medžio mazgų dalinimo kriterijų - kvadratinės arba santykinės klaidos, minimalų leidžiamą mazgo dydį - 1, 10 , 20 ar 30 pavyzdžių. Taip pat pateikiami medžio genėjimo minimalios klaidos - sudėtingumo algoritmo pagalba gauti rezultatai. Tyrimo duomenų bazę sudaro 300 tūkts. balsių ir 400 tūkst. priebalsių pavyzdžių paimtų iš VDU–AB20 garsyno. Sudarytasis modelis leidžia prognozuoti lietuvių kalbos garsų trukmes su ~25% santykine klaida
The goal of this research is building a model capable of predicting phonemes duration of Lithuanian. Set of 15 parameters characterizing phoneme and its context were selected for duration prediction. Data set consisting of 300 thousand vowels and 400 thousand consonants was used in this research. The influence of and minimal cost complexity pruning and different values of pre pruning are investigated. Models were built using two different data sets: one speaker and 20 speakers. Also prediction by average leaf duration vs. prediction by and median leaf duration are compared. The overall performance of ~25% average relative error was obtained
Internet: http://donelaitis.vdu.lt/publikacijos/garsu_trukme.pdf
http://donelaitis.vdu.lt/publikacijos/garsu_trukme.pdf
Affiliation(s): Vytauto Didžiojo universitetas
Appears in Collections:Universiteto mokslo publikacijos / University Research Publications

Files in This Item:
marc.xml9.04 kBXMLView/Open

MARC21 XML metadata

Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

164
checked on Dec 11, 2020

Download(s)

18
checked on Dec 11, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.