Lietuvių kalbos morfemikos duomenų bazė [elektroninis išteklius] : duomenų bazė
Other(s) | |||
---|---|---|---|
Sudarytojas / Compiler | LT | ||
Sudarytojas / Compiler | LT | ||
Sudarytojas / Compiler | LT | ||
Sudarytojas / Compiler | LT |
Date |
---|
2013 |
Lietuvių kalbos morfemikos duomenų bazę sudaro tiriamoji medžiaga, kuri apima apie 310 tūkst. rašytinės ir sakytinės kalbos žodžių. Tiriamoji medžiaga sudaryta iš skirtingų stilių, kuo įvairesnės tematikos, kiek įmanoma panašesnės apimties tekstų atkarpų iš mokslinio, publicistinio, grožinio stiliaus darbų ir šiek tiek mažesnės apimties administracinės kalbos pavyzdžių. Į tiriamąją medžiagą įdėta ir eksperimentinės sakytinės kalbos bazės fragmentų. Visi duomenų bazę sudarantys tekstai morfologiškai anotuoti (t. y. nustatytos kalbos dalys ir joms būdingos gramatinės žymos), visi žodžiai suskaidyti morfemiškai. Internete prieinamoje duomenų bazėje ribos tarp morfemų žymimos brūkšneliais. Visiems duomenų bazėje esantiems žodžiams nurodoma: lema, t. y. antraštinė (žodyninė) forma; gramatinė informacija, t. y. kalbos dalis, giminė, skaičius, laikas, asmuo ir pan.; dažnumas. Tai naujoviškas lietuvių kalbos tyrimas, nes iki šiol buvo skiriamas dėmesys arba gramatiniams žodžių santykiams, arba žodžių darybai, o morfotaktika (morfemų išsidėstymo žodyje dėsningumai) išsamiai nenagrinėta.