Kalbos apdorojimo technologijos

  • Dalyko kodas: INF 5010
  • Apimtis ECTS kreditais: 6
  • Pavadinimas anglų kalba: Natural Language Technologies
  • Dalyko aprašo rengėjas(-ai):

    Doc. dr. Jurgita Kapočiūtė-Dzikienė

Dalyko anotacija lietuvių kalba

Kalbos apdorojimo technologijos – lingvistikos ir dirbtinio intelekto sritis jungianti disciplina, kurios tikslas: išmokyti kompiuterius „suprasti“ žmonių kalbą. Semestro metu nagrinėjami populiariausi kompiuterinės lingvistikos uždaviniai; pristatomos klasikinės ir pažangiausios metodikos, leidžiančios tuos uždavinius efektyviai išspręsti ne tik anglų, bet ir norminei/nenorminei lietuvių kalbai.

Dalyko anotacija užsienio kalba

Natural language technologies is the discipline connecting linguistics and artificial intelligence, having the purpose to train computers to “understand” human language. During a semester the most popular computational linguistic tasks are analyzed; classical and state-of-the-art techniques capable of solving those tasks effectively not only for English, but for the normative/non-normative Lithuanian language are presented.

Būtinas pasirengimas dalyko studijoms

Mašininio mokymo kursas

Dalyko studijų rezultatai

Žinios ir supratimas apie technikas ir metodus taikomus kalbos apdorojimo technologijose.
Problemos (ar turimų duomenų) analizė remiantis lingvistinėmis bei informatikos žiniomis.
Natūralios kalbos apdorojimo technikų taikymas sprendžiant nesudėtingas praktines užduotis lietuvių kalbai .
Tinkamų įrankių, skirtų analizuoti ir apdoroti duomenis (tekstynus, duomenų aibes, medžių bankus, ontologijas bei kt. resursus) lietuvių bei anglų kalboms, pasirinkimas.

Dalyko turinys

1. Reguliariosios išraiškos
2. Pirminis teksto apdorojimas
3. Kalbos modeliavimas
4. Rašybos klaidų taisymas
5. Teksto klasifikavimas
6. Sentimentų analizė
7. Autorystės nustatymas
8. Informacijos gavyba
9. Įvardintų esybių atpažinimas
10. Sintaksinė analizė
11. Informacijos paieška
12. Semantinė analizė paremta tezaurais, ontologijomis
13. Klausimų-atsakymų sistemos
14 Mašininis vertimas

Dalyko studijos valandomis

Paskaitos (P) 45 val.
Laboratoriniai darbai (L) 15 val.
Savarankiškas darbas 100 val.
Iš viso 160 val.

Studijų rezultatų vertinimas

Kolokviumas – 17%, namų darbas – 33%, egzaminas – 50%

Literatūra

1. 2009 Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
2. 2012 Dan Jurafsky, Christopher D. Manning
Natural Language Processing. Stanford University https://class.coursera.org/nlp/lecture