Skaitmeninė lingvistika

  • Dalyko kodas: LKB 3012
  • Dalyko grupė: C
  • Apimtis ECTS kreditais: 5
  • Pavadinimas anglų kalba: Digital Linguistics
  • Dalyko aprašo rengėjas(-ai):

    Prof. habil. dr. Rūta Marcinkevičienė, doc. dr. Andrius Utka, dr. Loic Boizou, Lietuvių kalbos katedra

Dalyko anotacija lietuvių kalba

Studijuodami šį kursą, studentai įgis žinių apie skaitmeninės lingvistikos metodus, kiekybinius ir kokybinius kalbinius duomenis ir jų taikymą lingvistikoje, leksikografijoje bei informacinių technologijų reikmėms. Studentai susipažins ir išmoks dirbti su kalbine programine įranga: jie sudarys, analizuos ir klasifikuos konkordansus ir dažninius sąrašus, kaups tekstynus, juos analizuos ir mokysis tinkamai interpretuoti analizės rezultatus. Studentams bus suteiktos pradinės lingvistinio programavimo žinios, leisiančios jiems sukurti paprastas kompiuterinio teksto apdorojimo programas.

Dalyko anotacija užsienio kalba

During the course students will learn about methods of digital linguistics, about quantitative and qualitative linguistic data and about its application in linguistics, lexicography and for purposes of information technologies. Students will be introduced to work with linguistic analysis tools: they will learn how to make and analyse concordances and frequency lists, they will compile corpora, they will analyse them and will learn how to interpret results. Besides students will acquire initial knowledge of linguistic programming, which will enable them to create simple computer programs for textual data processing.

Dalyko studijų rezultatai

1. Susipažinti su pagrindiniais skaitmeninės lingvistikos metodais.
2. Išmokti analizuoti kiekybinius ir kokybinius kalbinius duomenis bei juos taikyti lingvistikoje, leksikografijoje, informacinių technologijų reikmėms ir kitose mokslo srityse.
3. Išmokti vertinti kalbinius išteklius kaip duomenis, reprezentuojančius kalbos visumą.
4. Kompiuterinėmis priemonėmis analizuoti kalbinius skirtumus tarp skirtingų kalbos atmainų ir žanrų.
5. Dirbti su kalbine programine įranga.
6. Apibrėžti ir paaiškinti pagrindinius informatikos terminus (kalba, kodas, mašininė kalba, binarinė sistema, kompiliavimas / interpretavimas, formatas, failas, algoritmas).
7. Perteikti pagrindinius Python programinės kalbos raktinius žodžius ir operatorius su jų sintaksinėmis ypatybėmis.
8. Paruošti algoritminiu būdu nesudėtingas užduotis, susijusias su teksto apdorojimu ir perrašyti jas Python kalba.

Dalyko turinys

Šnekos ir kalbos skaitmeniniai tyrimai. Skaitmeninis sakytinės kalbos apdorojimas. Tekstynai ir jų rūšys. Pagrindinės tekstynų analizės priemonės: konkordavimo programos ir dažninių sąrašų generatoriai. Kalbinė metainformacija: anotavimas. Tekstynų analizės taikymai tyrimuose. Skirtingų kalbos atmainų ir žanrų analizė. Kodavimas-tipai-ženklas ir ženklų eilutė. Programinė kalba, sintaksė, operatoriai, sveikasis ir realusis skaičiai, indeksas. Kompiliavimas ir interpretavimas, programos struktūra, sąlyginės struktūros, loginis tipas, iteratyvios struktūros.

Dalyko studijos valandomis

Paskaitos – 30 val., seminarai – 15 val., studentų savarankiškas darbas – 90 val. Iš viso 135 val.

Studijų rezultatų vertinimas

Kolokviumas – 25 proc.,  savarankiškas darbas – 25 proc., egzaminas – 50 proc. galutinio pažymio.

Literatūra

Pagrindinė literatūra
Clark A., Fox Ch., Lappin Sh. 2010: The Handbook of Computational Linguistics and Natural Language Processing. United Kingdom: Wiley-Blackwell.
Marcinkevičienė R. 2000: Tekstynų lingvistika. Teorija ir praktika. Darbai ir dienos 24, 7–63.
The Routledge Handbook of Corpus Linguistics. Routledge, 2010.
van Rossum G, Drake, Fred L. Jr. (ed). 2012. Python Tutorial. Release 2.7.3.
Utka A. 2000: Kalbinė įranga ir jos galimybės. Darbai ir dienos 24: 275–285.
Papildoma literatūra
Sinclair J. 1991: Corpus Concordance, Collocation. Oxford University Press.
Stubbs M. 2005: Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell Publishing.