Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/79175
Type of publication: master thesis
Field of Science: Informatika / Informatics (N009)
Author(s): Baltrukėnaitė, Jūratė
Supervisor: Vitkutė-Adžgauskienė, Daiva
Title: Kokybinių socialinių apklausų anonimizavimo modelis
Other Title: Model for anonymizing qualitative social surveys
Extent: 67 p.
Date: 21-May-2019
Keywords: Anonimizavimas;Anonymization;Natūralios kalbos apdorojimas;Natural language processing;Mašininis mokymas;Machine learning
Abstract: Siekiant socialinių kokybinių apklausų anketomis dalintis mokslo ar kitais tikslais, būtina šias anketas anonimizuoti – užtikrinti, kad neliktų informacijos, kuri nurodytų asmens tapatybę arba padėtų ją nustatyti. Darbo tikslas – sukurti automatinio anonimizavimo modelį, kuris padėtų natūralios kalbos tekstuose išskirti identifikatorius ir pakeisti juos taip, kad būtų paslėptos respondentų tapatybės, kartu išlaikant kuo daugiau anketos analizei reikalingos informacijos. Jau sukurtų anonimizavimo sistemų analizė parodė, kad jas dažniausiai sudaro du moduliai: identifikatorių atpažinimo ir jų pakeitimo. Identifikatorių atpažinimo uždaviniui spręsti panaudoti atraminių vektorių (SVM), daugialypio naiviojo Bayes‘o (NBM) ir sąlyginių atsitiktinių laukų (CRF) klasifikatoriai. Jie išbandyti su socialinių apklausų anketomis. Joms pritaikytos natūralios kalbos apdorojimo priemonės, anketos suskaidytos į klasifikavimo objektus (žodžius), sudaryti jų požymių rinkiniai ir atlikti 4 eksperimentai keičiant sąlygas ir klasifikuojamų objektų požymius. Remiantis F įverčio, teisingumo, tikslumo, išsamumo rodikliais bei maišytumo matrica nustatyta, kad klasifikuojant anketas sudarančius žodžius į identifikatorius ir ne identifikatorius geriausiu veikimu (F įvertis 0,81) pasižymi CRF klasifikatorius. Identifikatorių pakeitimo moduliui remiantis anonimizavimo metodų analize pasirinkta taikyti apibendrinimo techniką vietovardžius reiškiantiems identifikatoriams ir maskavimą visiems kitiems. Šioms dviem identifikatorių grupėms atskirti naudojamas VDU sukurta lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, taip pat morfologinis anotatorius, paieška Valstybinės lietuvių kalbos komisijos vietovardžių sąraše.
In order to share Qualitative Social Surveys for scientific or other purposes, it is necessary to anonymize those surveys – to ensure that there is no information to identify or help to identify a person. The aim of the work is to create an automatic anonymization model, which would help to distinguish identifiers in natural language texts and to hide them in such a way as to hide the identity of respondents while maintaining as much information as necessary for questionnaire analysis. Analysis of already existing anonymization systems has shown that they usually consist of two modules: recognition and replacement of identifiers. Support Vector Machines (SVM), Naive Bayes Multinomial (NBM) and Conditional Random Fields (CRF) classifiers were used for identifiers recognition. In order to test those classifiers, qualitative social surveys were collected, preprocessed using natural language processing tools and distinguished into classification objects (words), they classified into two classes: identifiers and not identifiers. Four experiments were carried out by changing conditions and attributes of the classified objects. The CRF classifier was revealed as the best method to classify the words of questionnaires into the identifier and non-identifier based on F-score (0,81), accuracy, precision, recall and confusion matrix. The Identifier Replacement Module is based on anonymization methods analysis. Has been chosen to apply the generalization technique to location-name identifiers and masking technique to all other identifiers. The Lithuanian language syntax and semantic analysis information system, morphological annotator and place names search in list provided by Lithuanian Language Commission is used to distinguish these two groups of identifiers.
Internet: https://hdl.handle.net/20.500.12259/79175
Appears in Collections:2019 m. (IF mag.)

Files in This Item:
Show full item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

161
checked on Jun 6, 2021

Download(s)

249
checked on Jun 6, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.