Encoding musical style using music information retrieval and deep learning methods
Šiais laikais muzika paprastam vartotojui yra pasiekiama labiau, nei bet kada. Tačiau turint prieigą prie tokio muzikos kiekio, žmonės vis daugiau laiko praleidžia bandydami išsirinkti būtent tai, kas jiems patinka labiausiai. Iš čia išryškėja didelio duomenų kiekio problema - vartotojas neturės galimybės perklausyti visų muzikos sklaidos kompanijų siūlomų kūrinių ir jam reikės pasiūlyti tik labai mažą, jo interesus atitinkantį, procentą turimos muzikos. Šiame darbe sprendžiama muzikos rekomendavimo problema, naudojant metodus, kurie panašumą tarp muzikos kūrinių randa tik pagal jų audio signalų savybes. Tam naudojome kelis signalų analizės bei giliojo mokymosi metodus: Melų skalės kepstrinius koeficientus, Chromagramas, Tempogramas, Nulio ašies kirtimo koeficientą, Automatinio šifravimo, Kintančio automatinio šifravimo ir \emph{OpenL3} įterpinių modelius. Visi metodai buvo testuojami su 4039 populiarių kūrinių duomenų baze, kurią sudarė muzikos kūriniai iš 11 skirtingų žanrų. Metodų tikslumas buvo įvertintas ekspertų ir skaičiuojant to paties atlikėjo bei žanro dainų skaičių sugeneruotame rekomendacijų sąraše. Vertinimo rezultatai parodė, kad geriausiai panašią muziką gebėjo aptikti Chromagramos modelis. Tačiau modeliai, nusakantys muzikos ritmą, abiejuose sistemų vertinimo testuose pasirodė prasčiausiai.
Nowadays, music is more accessible to us than ever before. With the increased popularity of online music streaming companies, people find themselves spending more and more time choosing the songs they actually like. This poses a problem of a fast and accurate music recommendation method, which would let the users ignore the large quantities of songs and choose precisely what they like. This work presents a method to compare music based entirely on its audio signal properties. For this, we used seven different signal processing and deep learning methods: Mel Frequency Cepstral Coefficients, Chromagram, Tempogram, Zero-Crossing rate, Autoencoder, Variational Autoencoder, and OpenL3 embeddings models. All experiments were performed on a database consisting of 4039 most popular songs from 11 different genres. The methods were evaluated by comparing algorithm's results with the music similarity results given by the experts and by counting the number of same genre/artist songs in the recommendations list. The evaluation results showed that the best model to find similar music was the Chromagram model. Models which indicated the music's rhythm scored the least in both model's evaluation tests.