Natūralios kalbos apdorojimo terminų ontologija: kūrimo problemos ir jų sprendimo būdai
Ramonas, Vilmantas |
Šiame darbe aptariamas natūralios kalbos apdorojimo terminų ontologijos kūrimas, kūrimo problemos ir jų sprendimo būdai. Tam, iš skirtingų šaltinių surinkta 217 NLP terminų. Terminai išversti į lietuvių kalbą. Trumpai aptartos problemos verčiant. Aprašytos tiek kompiuterinės, tiek filosofinės ontologijos, paminėti jų panašumai ir skirtumai. Išsamiau aptartas filosofinis požiūris į sąvokų ir daiktų panašumą, ką reikia žinoti, siekiant kiek galima geriau suprasti kompiuterinių ontologijų sudarymo principus. Išnagrinėtas pats NLP terminas, kas sudaro NLP, kokios natūralios kalbos apdorojimo technologijos jau sukurtos, kokios dar kuriamos. NLP terminų ontologijos sudarymui pasirinkus Teminių žemėlapių ontologijos struktūrą ir principus, plačiai aprašyti Teminių žemėlapių (TM) sudarymo principai, pagrindinės TM sudedamosios dalys: temos, temų vardai, asociacijos, vaidmenys asociacijose ir kiti. Vėliau, iš turimų terminų, paliekant tokią struktūrą, kokia rasta šaltinyje, nubraižytas medis. Prieita išvados, jog terminų skaičių reikia mažinti ir atsisakyti pirminės iš šaltinių atsineštos struktūros. Tad palikti tik 69 terminai, darant prielaidą, jog šie svarbiausi. Šiems terminams priskirta keliolika tipų, taip juos suskirstant į grupes. Ieškant dar geresnio skirstymo būdo, kiekvienam iš terminų priskirtas vienas ar keli jį geriausiai nusakantys meta aprašymai, pvz.: mašininis vertimas – vertimas, aukštas automatizavimo lygis. Visi meta aprašymai suskirstyti į 7 stambiausias grupes, tarp meta aprašymų ir pačių grupių nustatytos asociacijos ir vaidmenys jose. Šitaip įrodžius, jog ontologijos modelį galima sukurti ir iš metą aprašymų. Aptartas galimas konkrečių atvejų modelis NLP ontologijoje. Šį tyrinėjimų sritis dar nauja, ir nėra vieno kelio ar atsakymo, kaip sukurti ontologiją. Šiame darbe bandyta į šį procesą pažiūrėti nuo pat pradžių. Aptartos problemos su kuriomis susidurta, pasiūlyti jų sprendimai. Akivaizdu tai, jog žmogaus mąstyme savaime suprantamas asociacijas sunku aprašyti, tačiau įmanoma.
In this work it is discussed the development of ontology of natural language processing terms, developmental problems and their solutions. In order to reveal the topic of this work was gathered a collection of 217 NLP terms from different sources. The terms were translated into Lithuanian language. Briefly were revealed the problems of translation. There were described both the computer and philosophical ontology, mentioned their similarities and differences. There was discussed in detail the philosophical approach to the similarity of concepts and objects which is needed to know seeking to understand the ontology of computer principles as much as possible. There was examined the term of NLP, what is the NLP, which natural language processing technologies have already been developed, which are still being developed. For the composition of ontology of NLP terms were chosen the structure and principles of the Topic Maps in order to describe in broad the principles of composition of Topic Maps (TM), the main components of TM: theme, topic names, associations, role in association and others. Later from the got terms there was drawn the tree leaving the structure which was found in the source. It was found that the number of terms should be reduced and it is needed to refuse the primary structure taken from the sources. So, there were left only 69 terms, assuming that they are the most important. There were assigned several types for these terms dividing them into the groups. Finding better way to improve the distribution for each of the terms were assigned one or more meta descriptions defining it the best, for example: machine translation - the translation, high level of automation. All meta descriptions were divided into the seven largest groups, associations and roles within them were set between meta description and the groups. This showed that the ontology model could be created from the meta descriptions. It was discussed a possible model of concrete cases of NLP ontology. This research area is still new, and there is no one way or the answer how to create the ontology. In this work it was attempted to look at this process from the beginning. There were discussed the problems and offered the decisions. Obviously that it is difficult to describe the associations of human thinking, but it is possible.