Vilkaitė-Lozdienė, Laura |
DELFI.lt tekstynas yra sudarytas iš DELFI.lt portale nuo 2014 m. kovo iki 2016 m. lapkričio publikuotų straipsnių. Prie straipsnių pateikiami metaduomenys: autorius, pavadinimas, data, šaltinis, nuoroda, katetorija, žodžių skaičius. Tekstyną sudaro 190 000 straipsnių, apimančių 12 kategorijų: DELFI Veidai, Projektai, DELFI Mokslas, DELFI Auto, nenustatyta kategorija, Sportas, DELFI Gyvenimas, DELFI Žmonės, DELFI Pilietis, Verslas, DELFI FIT, DELFI Žinios. DELFI.lt tekstyną sudaro 70 milijonų žodžių. Tekstynas morfologiškai anotuotas Universal Dependencies žymomis ir prieinamas internete https://klc.vdu.lt/pastovuSearch.html.
DELFI.lt is corpus made of articles published by news portal DELFI.lt since March 2014 till November 2016. Metadata was collected with articles as well: author, title, date, source, link, category, number of words. This corpus is made of 190 000 news articles from 12 thematic categories: DELFI Faces (DELFI Veidai), Projects (Projektai), DELFI Science (DELFI Mokslas), DELFI Auto, Unidentified category, Sport, DELFI Life (DELFI Gyvenimas), DELFI People (DELFI Žmonės), DELFI CItizen (DELFI Pilietis), Business (Verslas), DELFI FIT, DELFI News (DELFI Žinios). All in all DELFI.lt corpus consists of 70 million words. The corpus is morphologically annotated with Universal Dependencies tags and is freely accessible for online search at http://tekstynas.mwe.lt/.