Kokybinių socialinių apklausų anonimizavimo modelis
Baltrukėnaitė, Jūratė |
Siekiant socialinių kokybinių apklausų anketomis dalintis mokslo ar kitais tikslais, būtina šias anketas anonimizuoti – užtikrinti, kad neliktų informacijos, kuri nurodytų asmens tapatybę arba padėtų ją nustatyti. Darbo tikslas – sukurti automatinio anonimizavimo modelį, kuris padėtų natūralios kalbos tekstuose išskirti identifikatorius ir pakeisti juos taip, kad būtų paslėptos respondentų tapatybės, kartu išlaikant kuo daugiau anketos analizei reikalingos informacijos. Jau sukurtų anonimizavimo sistemų analizė parodė, kad jas dažniausiai sudaro du moduliai: identifikatorių atpažinimo ir jų pakeitimo. Identifikatorių atpažinimo uždaviniui spręsti panaudoti atraminių vektorių (SVM), daugialypio naiviojo Bayes‘o (NBM) ir sąlyginių atsitiktinių laukų (CRF) klasifikatoriai. Jie išbandyti su socialinių apklausų anketomis. Joms pritaikytos natūralios kalbos apdorojimo priemonės, anketos suskaidytos į klasifikavimo objektus (žodžius), sudaryti jų požymių rinkiniai ir atlikti 4 eksperimentai keičiant sąlygas ir klasifikuojamų objektų požymius. Remiantis F įverčio, teisingumo, tikslumo, išsamumo rodikliais bei maišytumo matrica nustatyta, kad klasifikuojant anketas sudarančius žodžius į identifikatorius ir ne identifikatorius geriausiu veikimu (F įvertis 0,81) pasižymi CRF klasifikatorius. Identifikatorių pakeitimo moduliui remiantis anonimizavimo metodų analize pasirinkta taikyti apibendrinimo techniką vietovardžius reiškiantiems identifikatoriams ir maskavimą visiems kitiems. Šioms dviem identifikatorių grupėms atskirti naudojamas VDU sukurta lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, taip pat morfologinis anotatorius, paieška Valstybinės lietuvių kalbos komisijos vietovardžių sąraše.
In order to share Qualitative Social Surveys for scientific or other purposes, it is necessary to anonymize those surveys – to ensure that there is no information to identify or help to identify a person. The aim of the work is to create an automatic anonymization model, which would help to distinguish identifiers in natural language texts and to hide them in such a way as to hide the identity of respondents while maintaining as much information as necessary for questionnaire analysis. Analysis of already existing anonymization systems has shown that they usually consist of two modules: recognition and replacement of identifiers. Support Vector Machines (SVM), Naive Bayes Multinomial (NBM) and Conditional Random Fields (CRF) classifiers were used for identifiers recognition. In order to test those classifiers, qualitative social surveys were collected, preprocessed using natural language processing tools and distinguished into classification objects (words), they classified into two classes: identifiers and not identifiers. Four experiments were carried out by changing conditions and attributes of the classified objects. The CRF classifier was revealed as the best method to classify the words of questionnaires into the identifier and non-identifier based on F-score (0,81), accuracy, precision, recall and confusion matrix. The Identifier Replacement Module is based on anonymization methods analysis. Has been chosen to apply the generalization technique to location-name identifiers and masking technique to all other identifiers. The Lithuanian language syntax and semantic analysis information system, morphological annotator and place names search in list provided by Lithuanian Language Commission is used to distinguish these two groups of identifiers.