| Creator | Affiliation |
|---|---|
Lamb, William | |
Lingvistinis analizatorius, skirtas škotų gėlų kalbos tekstų žymėjimui, lemavimui ir analizavimui. Morfologinę ir sintaksinę analizę galima atlikti tiesiogiai iš tinklalapio (per teksto srities langą) arba kaip žiniatinklio paslaugą. Anotatoriuje taip pat galima pasirinkti ribotą žymių rinkinį. KALBOS DUOMENYS. Morfologinis analizatorius buvo apmokytas naudojant ARCOSG tekstyną (https://github.com/Gaelic-Algorithmic-Research-Group/ARCOSG), naudojant sąlyginius atsitiktinių skaičių laukus su scikit-learn (https://scikit-learn.org). Lemuoklis buvo sukurtas remiantis Michael Bauer ir Will Robertson pateiktu leksikonu (www.faclair.com). Integruotas UDPipe analizatorius (http://ufal.mff.cuni.cz/udpipe) buvo apmokytas naudojant link2 parinktį pagal Colin Batchelor UD Gaelic Treebank (https://universaldependencies.org/). REZULTATO FORMATAS. Vertikalioji lentelė: - paprastas tekstas su tabuliavimo žymėmis (TAB) - tiesioginiai html puslapio rezultatai, - paprastas tekstinis failas su tabuliavimo žymėmis arba conllu failas. Gramatinė informacija žymima naudojant ARCOSG žymių rinkinį ir UD žymių rinkinį. ĮVERTINIMAS. Pilnas morfologinio anotatoriaus tikslumas 90,7 % (išmatuotas maždaug su 4,6 % ARCOSG tekstyno). Paprastas anotatoriaus tikslumas 94,7 % (išmatuotas maždaug su 4,6 % ARCOSG tekstyno). Lemavimas ir sintaksinė analizė dar nebuvo vertinta.
A linguistic analyser for tagging, lemmatisation and parsing of Scottish Gaelic texts. Morphological and syntactic analyses are available directly from the webpage (through the text area window) or as a web service. A simple tagger option using a restricted tagset is also provided. LANGUAGE DATA. The tagger was trained with the ARCOSG corpus (https://github.com/Gaelic-Algorithmic-Research-Group/ARCOSG) using Conditional Random Fields with scikit-learn (https://scikit-learn.org). The lemmatiser was build on the top of a lexicon provided by Michael Bauer and Will Robertson (www.faclair.com). The integrated UDPipe parser (http://ufal.mff.cuni.cz/udpipe) was trained with link2 option on Colin Batchelor's UD Gaelic Treebank (https://universaldependencies.org/). OUTPUT FORMAT. Vertical tabular: - simple tabbed text for direct html page results, - simple tabbed text file or conllu file for web service results. Grammatical information encoded through ARCOSG tagset and UD tagset. EVALUATION. Full tagger accuracy of 90.7% (measured on about 4.6% of the ARCOSG corpus) Simple tagger accuracy of 94.7% (measured on about 4.6% of the ARCOSG corpus) Lemmatisation and Parsing not evaluated yet.