Praleistų reikšmių įrašymo metodų palyginimas
Palubinskaitė, Erika |
Diplominio darbo tikslas – ištirti praleistų reikšmių duomenyse užpildymo metodus, įvertinti tiesinės regresijos parametrus ir juos palyginti su pradinių duomenų tiesinės regresijos įverčiais. Darbe naudojamas duomenų rinkinys IRIS iš programinio R paketo. Pirmiausia atliekama pradinių duomenų aprašomoji statistika, toliau dirbtinai įrašomos praleistos reikšmės į pradinius duomenis. Praleistos reikšmės užpildomos keturiais skirtingais metodais naudojant MICE metodiką. Įvertinti tiesinės regresijos modelių parametrų įverčiai ir dispersijos. Skaičiavimams ir duomenų modeliavimui atlikti buvo naudojams statistinių duomenų apdorojimo paketas R.
The objective of this Master Thesis – to analyze the missing data imputation methods, to compute linear regression parameters and to compare linear regressions with parameters of original data. This Master Thesis was prepared with IRIS data fame from R software. Firstly, was necessary to compute descriptive statistics of original data, then impute missing values to original data. Missing values were filled by four different methods using MICE (Multivariate Imputation by Chained Equations). Than, linear regression estimates and variances were evaluated and compared. All computations and data simulations in this Master Thesis were handled by statistical software R.