Objektų identifikavimas simuliuotoje sudėtingoje virtualioje aplinkoje
Šiuo metu esantys objektų atpažinimo metodai reikalauja milžiniško kiekio anotuotų duomenų rinkinių. Šiam darbui atlikti reikia daug žmogaus darbo laiko, jame yra daug klaidų, anotacijos nebūna nuoseklios, t. y., to paties objekto klasė kitoje nuotraukoje gali būti nurodyta klaidingai, ar išvis praleista, nepažymėta. Taip pat sunku anotuoti nuotraukoje esančius objektus bei juos modifikuoti: norint pakeisti anotacijas, tektų rankiniu būdu taisyti kiekvieną nuotrauką bei anotaciją. Virtualiose aplinkose tą patį atlikti užtektų tik pakeisti klasifikuojamo objekto klasę bei iš naujo sugeneruoti duomenų rinkinį. Dėl šių problemų, siūloma naudoti virtualias aplinkas duomenų rinkinių generavimui, o tam reikia tik sukurti virtualią aplinką, iš kurios generuojami duomenų rinkiniai objektų atpažinimo užduočiai. Miškui, kaip sudėtingai aplinkai, ypatingai aktualios virtualios aplinkos, nes nėra tam tinkamų duomenų rinkinių. Šiame magistro darbe sukuriama virtuali aplinka, kurios kūrimui naudotas vienas iš geriausių šiuo metu esančių žaidimų variklių - Unreal Engine 4. Objektai paimti iš atvirai prieinamų modelių bei iš jau šiuo metu esančios virtualios simuliacinės aplinkos CARLA. Ši virtuali aplinka yra naudojama kaip pradžios taškas, tačiau ją teko modifikuoti. Objektų aptikimo užduočiai naudojami vieni iš geriausių konvoliucinių neuroninių tinklų. Šiame darbe tiriamas šių tinklų naudojimas virtualiose aplinkose objektų aptikimo užduočiai. 5 konvoliuciniai neuroniniai tinklai buvo pasirinkti ir mokyti bei gauti jų rezultatai įvertinti. Atlikus įvertinimą, buvo sukurta nauja aplinka B. Ši aplinka naudota tik objektyviam objektų aptikimo modelių įvertinimui ankščiau nematytoje aplinkoje. Atlikus įvertinimą šioje naujoje aplinkoje pritaikyti 3 aptikimų sujungimo metodai ir nustatyta, ar sujungus šių modelių aptikimus galima gauti geresnius tikslumo įvertinimus. Darbe įrodoma, jog virtualių aplinkų naudojimas sudėtingose miškingose vietovėse yra galimas, Unreal Engine 4 yra tinkamiausias žaidimų variklis virtualių sintetinių aplinkų kūrimui, o sujungus modelių aptikimus galima gauti tikslesnius rezultatus.
Current object detection models require a tremendous number of annotated images. One issue related to the dataset creation task is that the annotation of large volumes of images is a very time-consuming and error-prone task. It is usual to come across multiple annotation errors like, for example, inconsistent annotations, misrepresentation of an object class, or missing an object altogether. Another issue related to the dataset creation is the volume of annotations that need to be modified in datasets. In the case of virtual environments, it is sufficient to change the class of an object, so that the dataset can be re-generated at a higher efficiency as compared to manual annotations. To deal with the problems related to an array of image annotation task problems the current Masters Thesis promotes an approach to use virtual environments. These environments facilitate the generation of images’ datasets by requiring solely the creation of a virtual environment from which datasets are generated for an object detection task. For complex environments, such as forests, it is essential to create an extensive dataset, and synthetic is the best solution there is. To create a virtual environment, one of the best game creation engines - "Unreal Engine 4" - was used in the current Thesis. An existing virtual simulated environment CARLA is used as a starting point for the building of the virtual environment which had to be adapted for making the dataset. The current Thesis is based on the use of state-of-the-art Convolutional Neural Networks for object detection and investigates whether the knowledge acquired from virtual environments can be used to detect objects in generated images. 5 state-of-the-art models were trained and their results were evaluated. After the evaluation, a new environment B has been created and was only used to test object detection models' performance in a never-seen-before environment. Then 3 methods of object detection ensembling were implemented and evaluated on whether by merging object detection models results it would be possible to get better results, which turned to be the case as featured in the current Thesis.