An overview of Lithuanian internet media n-gram corpus

Bumbulienė, Ieva; Mandravickaitė, Justina; Boizou, Loic; Krilavičius, Tomas

Use this url to cite publication: https://hdl.handle.net/20.500.12259/36090

An overview of Lithuanian internet media n-gram corpus

Type of publication

Straipsnis konferencijos medžiagoje Scopus duomenų bazėje / Article in conference proceedings in Scopus database (P1a2)

Author(s)

Author	Affiliation
Bumbulienė, Ieva	Informatikos fakultetas / Faculty of Informatics	LT	Baltijos pažangiųjų technologijų institutas	LT
Mandravickaitė, Justina	Baltijos pažangiųjų technologijų institutas	LT	Vilniaus universitetas

Title

An overview of Lithuanian internet media n-gram corpus

[en]

Is part of

CEUR workshop proceedings [electronic resource]: SYSTEM 2017: proceedings of the symposium for Young Scientists in Technology, Engineering and Mathematics, Kaunas, Lithuania, April 28, 2017. Aachen : CEUR-WS, 2017, Vol. 1853

Date Issued

Date
2017

Publisher

Aachen : CEUR-WS

Is Referenced by

Scopus

Extent

p. 24-28

URI

URI
http://ceur-ws.org/Vol-1853/p05.pdf
https://hdl.handle.net/20.500.12259/36090

Field of Science

Keywords (en)

Abstract (en)

This paper describes construction and properties of the open 70 million words Lithuanian Internet media n-gram corpus. Due to copyright limitations often contemporary media based resources availability is restricted, while n-grams corpora (e.g., Google N-gram viewer/corpus) solve the problem. Lithuanian language is under-resourced, hence n-gram corpus of Lithuanian media is designed to contribute to publicly available ready-to-use lexical resources. In this paper we report corpus construction procedure, preprocessing, corpus statistics and possible areas of application.

Type of document

type::text::journal::journal article::research article

Language

Anglų / English (en)

Coverage Spatial

Vokietija / Germany (DE)

File(s)

Owning collection

Universiteto mokslo publikacijos / University Research Publications

Mapped collections

3. Konferencijų medžiaga / Conference materials

ISSN (of the container)

1613-0073

Other Identifier(s)

VDU02-000022098

Access Rights

Atviroji prieiga / Open Access

Creative Commons License

Humanitarinių mokslų fakultetas / Faculty of Humanities

Journal	Cite Score	SNIP	SJR	Year	Quartile
CEUR Workshop Proceedings	0.6	0.346	0.167	2017	Q4