Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/35660
Type of publication: master thesis
Field of Science: Istorija ir archeologija / History and archaeology (H005)
Author(s): Brinkutė, Rūta
Supervisor: Rimkutė, Erika
Title: Gramatinių kategorijų pasiskirstymas morfologiškai anotuotame lietuvių kalbos tekstyne
Other Title: Distribution of grammatical categories in the morphologically annotated Lithuanian language corpus
Date: 11-Jan-2018
Event: Vytauto Didžiojo universitetas. Humanitarinių mokslų fakultetas. Lituanistikos katedra
Keywords: Gramatinės kategorijos;Morfologiškai anotuotas tekstynas;Funkciniai stiliai;Grammatical categories;Morphologically annotated corpus;Functional styles
Abstract: Šiuo darbu siekta išanalizuoti gramatinių kategorijų vartoseną dabartinėje rašytinėje kalboje. Ji analizuota morfologiškai anotuotame lietuvių kalbos tekstyne (MATE), kuris buvo sudarytas Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre. Gramatinių kategorijų vartosena analizuota šio tekstyno administracinio, grožinės literatūros, mokslinio ir publicistikos stilių dalyse, kiekybiniai duomenys palyginti su kitų autorių tyrimais. Darbe taip pat apžvelgtos automatinės morfologinės analizės priemonės ir morfologiškai anotuoti tekstynai. Išanalizavus kalbos dalių vartoseną morfologiškai anotuotame tekstyne, matyti, kad visose jo dalyse daugiausia vartojami daiktavardžiai, antri pagal dažnumą yra veiksmažodžiai, treti – įvardžiai (grožiniame stiliuje ir publicistikoje), būdvardžiai (moksliniame stiliuje), jungtukai (administraciniame stiliuje). Visose tekstyno dalyse daugiausia vartojama vyriškoji giminė (išskyrus grožinio stiliaus įvardžius). Taip pat tekstyne daugiausia vartojama vienaskaita (išskyrus grožinio stiliaus skaitvardžius). Daugiausia vartojami pagrindiniai vardininko, kilmininko ir galininko linksniai, mažiau vartojami periferiniai naudininko, įnagininko ir vietininko linksniai, rečiausiai vartojami šauksmininkas ir iliatyvas. Visose tekstyno dalyse daugiausia vartojamos veiksmažodžių asmenuojamosios formos, tiesioginė nuosaka, veiksmažodžių vienaskaitos ir daugiskaitos III asmuo, bendriniai daiktavardžiai, kiekiniai pagrindiniai skaitvardžiai. Taip pat daugiausia visose tekstyno dalyse vartojama dalyvių neveikiamoji rūšis, išskyrus grožinį stilių, jame daugiausia pavartota veikiamoji rūšis. Visose tekstyno dalyse daugiausia vartojamas būdvardžių, skaitvardžių ir prieveiksmių nelyginamasis laipsnis, neįvardžiuotinės būdvardžių, įvardžių ir dalyvių formos, nesangrąžinės daiktavardžių, veiksmažodžių asmenuojamųjų formų, bendračių, dalyvių, padalyvių ir pusdalyvių formos. Taip pat visose tekstyno dalyse daugiausia vartojamas veiksmažodžių asmenuojamųjų formų esamasis laikas, išskyrus grožinį stilių, jame daugiausia pavartotas asmenuojamųjų formų būtasis kartinis laikas. Šiame darbe aprašyti rezultatai sutampa su ankstesnių tyrimų išvadomis, bet šis tyrimas svarbus tuo, kad jame pateikiama kiekybinių duomenų apie dabartinės lietuvių kalbos gramatinių kategorijų pasiskirstymą gana dideliame morfologiškai anotuotame ir rankomis sutvarkytame tekstyne, todėl duomenys yra patikimi.
This paper pursues to analyze grammatical categories usage of the present written Lithuanian language. It is analyzed in the morphologically annotated Lithuanian language corpus (MATAS), which was created in the Vytautas Magnus University Centre of Computational Linguistics. The usage of grammatical categories is analyzed in administrative literature, fiction, scientific literature and publicism parts of this corpus. Quantitative data is compared with other authors’ researches. In this paper also are rewieved tools of grammatical analysis and morphologically annotated corpuses. The analysis of the grammatical categories have showed that in all parts of the morphologically annotated corpus mostly used are nouns, the second ones by frequency are verbs, the third – pronouns (in fiction and publicism), adjectives (in scientific literature), conjunctions (in administrative literature). In all parts of the corpus mostly used is masculine gender (except pronouns in fiction). Also in the corpus mostly used are singular forms (except numerals in fiction). Mostly used are the main cases nominative, genitive and accusative. Less used are the peripheral cases dative, instrumental and locative, the least – vocative and illative. In all parts of the corpus mostly used are inflective verbs, direct mood, the third person of singular and plural verbs, common nouns, cardinal basic numerals. Also in all parts of the corpus mostly used are passive forms of participles, except fiction, there mostly used are active forms of participles. In all parts of the corpus mostly used are non-comparative degree of adjectives, numerals and adverbs, non-pronominal forms of adjectives, pronouns and participles, non-reflexive forms of nouns, inflective verbs, infinitives and participles. Also in all parts of the corpus mostly used is present tense of inflective verbs, except fiction, there mostly used is past simple tense of inflective verbs. Results of this paper coincide with conclusions of earlier researches, but this analysis is important because it represents quantitative data about grammatical categories usage of the present written Lithuanian language in quite big morphologically annotated and manually corrected corpus, so data is reliable.
Internet: https://hdl.handle.net/20.500.12259/35660
Appears in Collections:2018 m. (HMF mag.)

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats

Page view(s)

260
checked on Sep 6, 2020

Download(s)

390
checked on Sep 6, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.