Use this url to cite researcher: https://hdl.handle.net/20.500.12259/155028
Now showing 1 - 10 of 39
 • research article;
  Mockienė, Liudmila
  ;
  Laurinaitis, Marius
  ;
  Rackevičienė, Sigita
  ;
  ;
  Selected papers from the CLARIN annual conference 2021 virtual event, 2021, 27–29 September / edited by M. Monachini and M. Eskevich
  The paper aims at presenting English-Lithuanian corpora for bilingual term extraction (BiTE) in the cybersecurity domain within the framework of the project DVITAS. It is argued that a system of parallel, comparable, and training corpora for BiTE is particularly useful for less-resourced languages, as it allows efficiently to combine strengths and avoid weaknesses of comparable and parallel resources. A special focus is given to the availability of sources in the cybersecurity domain and issues related to copyright-protected publications, as well as the data curation performed for building the corpora and depositing them to CLARIN-LT repository.
    19
 • research article
  Rackevičienė, Sigita
  ;
  ; ;
  Respectus philologicus
  The paper provides results of the frequential distribution analysis of cybersecurity terms used in the Lithuanian cybersecurity corpus composed of texts of different genres. The research focuses on the following aspects: overall distribution of cybersecurity terms (their density and diversity) across genres, distribution of English and English-Lithuanian terms and their usage patterns in Lithuanian sentences, and, finally, the most frequent cybersecurity terms and their thematic groups in each genre. The research was performed in several stages: compilation of a cybersecurity corpus and its subdivision into genre-specific subcorpora, manual annotation of cybersecurity terms, automatic lemmatisation of annotated terms and, finally, quantitative analysis of the distribution of the terms across the subcorpora. The results reveal the similarities and differences of the use of cybersecurity terminology across genres which are important to consider to get a complete picture of terminology usage trends in this domain.
    15Scopus© SNIP 0.375
 • conference paper
  Rackevičienė, Sigita
  ;
  ;
  Mockienė, Liudmila
  ;
  LLOD approaches for language data research and management, LLODREAM2022 : International scientific interdisciplinary conference : abstract book, September 21-22, 2022
    9
 • Leksikonas yra elektroninė leksinė bazė, kurioje sukaupta medžiaga skirta lietuvių kalbos kaip svetimosios mokymui(si). Leksikonas parengtas Mokomojo tekstyno pagrindu, panaudojant rašytinės kalbos dalį, kurią sudaro apie 620 tūkst. žodžių. Šis nedidelis, vienakalbis, morfologiškai anotuotas tekstynas yra sudarytas lietuvių kalbos mokymo(si) reikmėms, todėl naudotas kaip pagrindinis leksikono šaltinis – antraštynui sudaryti ir leksinių vienetų vartosenos dėsningumams ištirti. Leksikone pateikta 3700 leksinių vienetų – žodžių ir pastoviųjų žodžių junginių (sudėtinių pavadinimų, frazeologizmų, posakių). Leksikono antraštyną sudaro: 1) žodžiai (veiksmažodžiai, daiktavardžiai, būdvardžiai ir prieveiksmiai), daugiau nei 100 kartų pavartoti visuose keturiuose Mokomojo tekstyno lygiuose nuo A1 iki B2, iš viso tokių žodžių aprašyta 700; 2) su dažniausiais 700 žodžių susiję tekstyne esantys dariniai ir pastovieji žodžių junginiai, iš viso 3000 leksinių vienetų. Pagrindinis leksikono tikslas buvo sukaupti duomenų lietuvių kalbos mokymui(si) aukštesniuosiuose lygiuose, t. y. pateikti kuo daugiau informacijos apie leksinio vieneto (žodžio ir pastoviojo žodžių junginio) vartoseną – autentišką, būdingą dabartinei lietuvių kalbai ir aktualią kalbos mokymuisi.Leksikone rasite informacijos, kaip aprašyti žodžiai ir junginiai vartojami dabartinėje lietuvių kalboje: kaip jie rašomi, tariami, kokiomis formomis dažniausiai vartojami, kokia jiems būdinga leksinė ir gramatinė aplinka. Leksinei ir gramatinei aplinkai atskleisti naudojami ne tik pavyzdžiai, bet ir vartosenos modeliai – juose matyti skirtingoms žodžio reikšmėms būdinga gramatika ir leksika. Leksikone nepateikiami žodžių reikšmių aiškinimai – atskirti ir suprasti žodžio reikšmes padeda vartosenos modeliuose fiksuojami dėsningumai. [...]
    41
 • conference paper;
  Mockienė, Liudmila
  ;
  Laurinaitis, Marius
  ;
  Rackevičienė, Sigita
  ;
  ;
  CLARIN 2021: proceedings of annual conference, 27-29 September 2021 [virtual edition] / edited by Monica Monachini, Maria Eskevich. Utrecht: Utrecht University, p. 11-15
  The paper aims at presenting English-Lithuanian corpora for bilingual term extraction (BiTE) in the cybersecurity domain within the framework of the project DVITAS. It is argued that a system of parallel, comparable, and training corpora for BiTE is particularly useful for less resourced languages, as it allows to efficiently use strengths and avoid weaknesses of comparable and parallel resources. A special focus is given to the open nature of the data, which is achieved by publishing the data in CLARIN-LT repository.
    53
 • conference paper
  Rackevičienė, Sigita
  ;
  ; ;
  Moksliniai, administraciniai ir edukaciniai terminologijos lygmenys = Scientific, administrative and educational dimensions of terminology : 4-oji tarptautinė mokslinė terminologijos konferencija, 2021 m. spalio 21–22 d., Vilnius: tezės. Vilnius: Lietuvių kalbos institutas, 2021, p. 28-29
  Currently, most terminology extraction projects are based on deep learning systems, the development of which depends on big amounts of texts and training data. The latter are obtained by manually annotating terminology used in domain-specific texts. Annotation is usually performed by terminology researchers in cooperation with domain experts. The presentation presents the monolingual and bilingual terminology annotation methodology which has been used for annotation of the terms of the domain of cybersecurity (CS), the problems which have occurred during the annotation and the initial results. For the purposes of the annotation work, the special software QuickTag has been developed. The software provides a toolkit for annotation of terms and appellations used in monolingual texts and bilingual parallel texts. Functionalities of the software allow adding various types of metadata about lexical units used in coherent texts. Firstly, the main annotation function allows tagging terms and appellations with the pre-existing tags indicating their conceptual characteristics: terms of the CS domain, terms related to the CS domain and appellations of the CS domain. Appellations can be additionally tagged with the tags indicating their semantic classes according to the nature of the referent (documents, institutions, software, etc.). Secondly, QuickTag allows adding metadata about certain usage- and formation-related features of the tagged lexical units, e. g. an annotator can indicate a full term form of the tagged abbreviated term, specify formation type of the term or its origin. [...]
    29
 • research article; ; ; ;
  Human language technologies - the Baltic perspective: proceedings of the 9th international conference, Baltic HLT, Kaunas, Vytautas Magnus University, Lithuania, 22-23 September 2020 / editors Andrius Utka, Jurgita Vaičenonienė, Jolanta Kovalevskaitė, Danguolė Kalinauskaitė. Amsterdam : IOS Press, 2020, p. 245-252
  The article presents a new resource for A2-B2 learners of Lithuanian as L2 to improve their lexical competence and language production skills. The lexical database is a lexicographic application of the Lithuanian Pedagogic Corpus which was used both to develop headword lists and to collect word usage information. For this study, we adopt the inductive procedure of Corpus Pattern Analysis which was partly automated using the Lithuanian Sketch Grammar in Sketch Engine. We explain the model for pattern recognition and description, sense division, the selection of examples and give some details concerning the user interface.
    49  73Scopus© SNIP 0.338
 • „Lietuvių kalbos kolokacijų žodynas“ – vienas iš projekto „Lietuvių kalbos pastoviųjų žodžių junginių automatinis atpažinimas (PASTOVU)“ rezultatų. Tai pirmas lietuvių kalbos kolokacijų žodynas, parengtas iš dabartinės rašytinės lietuvių kalbos periodikos tekstų – iš DELFI.lt tekstyno. Žodyne pateikta apie 12 tūkst. dvižodžių bei trižodžių kolokacijų ir apie 100 tūkst. jų kaitybinių formų (jos pateiktos priede).
    1305  1201
 • Publication
  Lietuvių kalbos pastoviųjų junginių gramatinis variantiškumas
  [Grammatical variation of Lithuanian formulaic sequences]
  research article; ; ;
  Vilkaitė-Lozdienė, Laura
  Kalbų studijos = Studies about languages. Kaunas : Kauno technologijos universitetas, 2019, nr. 34, p. 91-110
  The paper analyses grammatical variation of two types of formulaic sequences: collocations and idioms. The formulaic sequences were automatically extracted from the DELFI.lt corpus. It was noticed that formulaic sequences are used in different forms that cannot be seen as simple inflections. Their grammatical variation was classified into the following categories: 1 Derivational variation: when one sequence has an affix and another one, which can be seen as its variant, has not. E.g., nutekėjo protai – protų nutekėjimas; ekonomikos krizė – ekonominė krizė; 2 Morphological variation: when number, gender or other grammatical categories vary. E.g., euro įvedimas – euro įsivedimas; iš pradžios – iš pradžių; vykdomasis direktorius – vykdantysis direktorius; 3 Syntactic variation: when the noun cases or prepositions vary, e.g., išskėstomis rankomis – su išskėstomis rankomis, other words are inserted, e.g., aistringas [beisbolo] gerbėjas, or word order changes, e.g., skirti dėmesį – dėmesį skirti. Grammatical variation seems to be more typical for collocations than for idioms. Also, in about 14 thousand formulaic sequences analysed, collocations were far more frequent than idioms, so the paper mostly gives examples of grammatical variation of collocations. The paper presents a qualitative report because there have been almost no works on grammatical variation of Lithuanian formulaic sequences so far and for this reason it is important to describe and classify the phenomenon.
    88Scopus© Citations 1Scopus© SNIP 0.276