| Creator | Affiliation |
|---|---|
23,9 mln. žodžių Lietuvos Seimo tekstynas yra specialiai sukurtas autorystės nustatymo uždaviniui spręsti. Tekstyną sudaro 111 tūkst. 147 Lietuvos Respublikos Seimo narių kalbų transkripcijų pavyzdžių. Jis apima 1990 m. kovo - 2013 m. gruodžio mėn. laikotarpį. Kiekvienoje tekstyno failo eilutėje yra skirtingas teksto požymis, kuris gali būti naudojamas autorystės nustatymo uždaviniui (Kapočiūtė Dzikienė et al. 2014). Literatūros šaltiniai:Kapočiūtė-Dzikienė, Jurgita, Utka, Andrius, Šarkutė, Ligita. 2014. Feature exploration for authorship attribution of Lithuanian parliamentary speeches. Text, speech and dialogue: 17th international conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014: proceedings, 93-100. Kapočiūtė-Dzikienė, Jurgita; Nivre, Joakim; Krupavičius, Algis. 2013. Lithuanian Dependency Parsing with Rich Morphological Features. Empirical Methods in Natural Language Processing - 4th Workshop on Statistical Parsing of Morphologically Rich Languages (SPMRL'2013), psl. 12-21. Zinkevičius, Vytautas. 2000. Lemuoklis - morfologinei analizei. Gudaitis, L. (ed.) Darbai ir Dienos, 24: 246-273.
23.9 m word Lithuanian Parliament corpus is specially designed for authorship attribution task. The corpus consists of 111 thousand samples of speech transcripts by 147 parliamentarians in Lithuanian Seimas. It covers the period of March, 1990 – December, 2013. Each line in a corpus file contains a different text feature that can be used in the authorship attribution task (Kapočiūtė Dzikienė et al. 2014). References: Kapočiūtė-Dzikienė, Jurgita, Utka, Andrius, Šarkutė, Ligita. 2014. Feature exploration for authorship attribution of Lithuanian parliamentary speeches. Text, speech and dialogue: 17th international conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014: proceedings, 93-100. Kapočiūtė-Dzikienė, Jurgita; Nivre, Joakim; Krupavičius, Algis. 2013. Lithuanian Dependency Parsing with Rich Morphological Features. Empirical Methods in Natural Language Processing - 4th Workshop on Statistical Parsing of Morphologically Rich Languages (SPMRL'2013), psl. 12-21. Zinkevičius, Vytautas. 2000. Lemuoklis - morfologinei analizei. Gudaitis, L. (ed.) Darbai ir Dienos, 24: 246-273.