Vytautas Magnus University Research Management System (VDU CRIS)





Use this url to cite project: https://hdl.handle.net/20.500.12259/155221
Now showing1 - 1 of 1
  • Item type:Dataset,
    Lithuanian Parliament Corpus for authorship attribution
    [Lietuvos Seimo stenogramų tekstynas]
    dataset[2017][H004,N009]
    ;
    ;
    Vytauto Didžiojo universitetas / Vytautas Magnus University, 2017-10-05

    23,9 mln. žodžių Lietuvos Seimo tekstynas yra specialiai sukurtas autorystės nustatymo uždaviniui spręsti. Tekstyną sudaro 111 tūkst. 147 Lietuvos Respublikos Seimo narių kalbų transkripcijų pavyzdžių. Jis apima 1990 m. kovo - 2013 m. gruodžio mėn. laikotarpį. Kiekvienoje tekstyno failo eilutėje yra skirtingas teksto požymis, kuris gali būti naudojamas autorystės nustatymo uždaviniui (Kapočiūtė Dzikienė et al. 2014). Literatūros šaltiniai:Kapočiūtė-Dzikienė, Jurgita, Utka, Andrius, Šarkutė, Ligita. 2014. Feature exploration for authorship attribution of Lithuanian parliamentary speeches. Text, speech and dialogue: 17th international conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014: proceedings, 93-100. Kapočiūtė-Dzikienė, Jurgita; Nivre, Joakim; Krupavičius, Algis. 2013. Lithuanian Dependency Parsing with Rich Morphological Features. Empirical Methods in Natural Language Processing - 4th Workshop on Statistical Parsing of Morphologically Rich Languages (SPMRL'2013), psl. 12-21. Zinkevičius, Vytautas. 2000. Lemuoklis - morfologinei analizei. Gudaitis, L. (ed.) Darbai ir Dienos, 24: 246-273.

      105  4