Dirbtinio intelekto ir giliojo mokymosi technologijomis grįstų kalbos technologijų MTEP rezultatų komercinimas (ASTRA)
Lithuanian Parliament Corpus for authorship attributionItem type:Dataset, [Lietuvos Seimo stenogramų tekstynas]dataset[2017][H004,N009]; ; Vytauto Didžiojo universitetas / Vytautas Magnus University, 2017-10-0523,9 mln. žodžių Lietuvos Seimo tekstynas yra specialiai sukurtas autorystės nustatymo uždaviniui spręsti. Tekstyną sudaro 111 tūkst. 147 Lietuvos Respublikos Seimo narių kalbų transkripcijų pavyzdžių. Jis apima 1990 m. kovo - 2013 m. gruodžio mėn. laikotarpį. Kiekvienoje tekstyno failo eilutėje yra skirtingas teksto požymis, kuris gali būti naudojamas autorystės nustatymo uždaviniui (Kapočiūtė Dzikienė et al. 2014). Literatūros šaltiniai:Kapočiūtė-Dzikienė, Jurgita, Utka, Andrius, Šarkutė, Ligita. 2014. Feature exploration for authorship attribution of Lithuanian parliamentary speeches. Text, speech and dialogue: 17th international conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014: proceedings, 93-100. Kapočiūtė-Dzikienė, Jurgita; Nivre, Joakim; Krupavičius, Algis. 2013. Lithuanian Dependency Parsing with Rich Morphological Features. Empirical Methods in Natural Language Processing - 4th Workshop on Statistical Parsing of Morphologically Rich Languages (SPMRL'2013), psl. 12-21. Zinkevičius, Vytautas. 2000. Lemuoklis - morfologinei analizei. Gudaitis, L. (ed.) Darbai ir Dienos, 24: 246-273.
105 4