Lietuvių kalbos garsų trukmės modeliavimas klasifikavimo ir regresijos medžiais, naudojant didelės apimties garsyną
Date |
---|
2007 |
Šio tyrimo tikslas - sukurti modelį gebantį prognozuoti lietuvių kalbos garsų trukmes pagal kontekstinę informaciją. Tyrimui naudotas, garsą bei jo kontekstą aprašantis, 15-os požymių rinkinys, svarbiausi jų: prognozuojamo garso identifikatorius, gretimų garsų identifikatoriai, garsų skaičius skiemenyje. Darbe aprašomas eksperimentas, kurio metu lietuvių kalbos garsų trukmės buvo prognozuojamos naudojant klasifikavimo ir regresijos medžius. Pateikiami eksperimentų rezultatai keičiant šiuos modelio parametrus: medžio mazgų dalinimo kriterijų - kvadratinės arba santykinės klaidos, minimalų leidžiamą mazgo dydį - 1, 10 , 20 ar 30 pavyzdžių. Taip pat pateikiami medžio genėjimo minimalios klaidos - sudėtingumo algoritmo pagalba gauti rezultatai. Tyrimo duomenų bazę sudaro 300 tūkts. balsių ir 400 tūkst. priebalsių pavyzdžių paimtų iš VDU–AB20 garsyno. Sudarytasis modelis leidžia prognozuoti lietuvių kalbos garsų trukmes su ~25% santykine klaida.
The goal of this research is building a model capable of predicting phonemes duration of Lithuanian. Set of 15 parameters characterizing phoneme and its context were selected for duration prediction. Data set consisting of 300 thousand vowels and 400 thousand consonants was used in this research. The influence of and minimal cost complexity pruning and different values of pre pruning are investigated. Models were built using two different data sets: one speaker and 20 speakers. Also prediction by average leaf duration vs. prediction by and median leaf duration are compared. The overall performance of ~25% average relative error was obtained.