Please use this identifier to cite or link to this item:https://hdl.handle.net/20.500.12259/130172
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKapočiūtė-Dzikienė, Jurgita-
dc.contributor.authorVaškevičius, Mantas-
dc.date.accessioned2021-05-21T19:57:08Z-
dc.date.available2021-05-21T19:57:08Z-
dc.date.issued2021-05-27-
dc.identifier.urihttps://hdl.handle.net/20.500.12259/130172-
dc.description.abstractOrganinės sintezės instrukcijos – tai aprašymai, kaip ir kokius veiksmus reiktų atlikti, kad būtų sukurtas naujas junginys. Laboratorijoje metodika (instrukcija) naujų junginių sintezei yra kuriama keičiant ir testuojant įvairias cheminių procesų parametrų reikšmes. Nors specialistai chemikai, remdamiesi patirtimi ir žiniomis, geba dalinai planuoti sintezės procesą, naujų cheminių junginių sintezės metodikos vystymui reikia daugiausiai laiko bei investicijų visoje naujo cheminio junginio kūrimo procese. Šio darbo tikslas – pasiūlyti efektyvią mašininio mokymo metodiką, kuri leistų kiek galima tiksliau generuoti sintezės instrukcijas naujiems cheminiams junginiams. Iš cheminių sintezės instrukcijų duomenų rinkinio buvo sudaryta 19 skirtingų žingsnių parametrų (temperatūros, žingsnio tipo, naudojamų tirpiklių) duomenų rinkinių ir dar 3 papildomi duomenų rinkiniai – žingsnių sekos, reagentų sudėjimo, reagentų tirpiklių sudėjimo (iš viso 22 duomenų rinkiniai). Tyrimo metu spręsti tolydžių parametrų prognozės (žingsnių Stir, Heat, Wait, Cool, Purify parametrų), žingsnių tipo klasifikavimo (žingsnių Remove, Partition, Recover tipo), etikečių klasifikavimo (žingsniuose Wash, Purify, Dry, Extract, Partition, Precipitate, Quench, Degass naudojamų tirpiklių) uždaviniai. Testuoti trys molekulių vektorizavimo metodai: išmokti įterpiniai, molekuliniai antspaudai ir molekulinių antspaudų enkoderis. Eksperimentuota su skirtingais neuroninių tinklų tipais: tiesinio sklidimo, ilgos-trumpalaikės atminties rekurentiniu ir konvoliuciniu neuroniniu tinklu. Visų tolydžių parametrų prognozės uždavinių vertinimui naudotas R2 įvertis, o pasiekta reikšmė > 0,855. Visų žingsnių tipo klasifikavimo uždavinių vertinimui naudota taiklumo (accuracy) metrika, o pasiektas rezultatas > 0,834. Visiems žingsnių etikečių klasifikavimo uždaviniams buvo pasiektas taiklumas > 0,779. Žingsnių sekos prognozės uždaviniui pasiektas 0,896 ± 0,013 taiklumas, reagentų sudėjimo – 0,586 ± 0,005, reagentų tirpiklių sudėjimo – 0,573 ± 0,049. Geriausi rezultatai pasiekti molekulių antspaudų autoenkoderio vektorizavimo metodu, kuris geba reikšmingai suspausti molekulių antspaudų matricą. Tiksliausias neuroninių tinklų tipas – ilgos-trumpalaikės atminties (LSTM) metodas, atsižvelgiantis į iš eilės pateikiamų molekulių savybes bei gebantis išmokti jų sąsajas. Sukurta metodika leidžia efektyviai generuoti reikšmingas sintezės instrukcijas, kurios gali būti testuojamos ir panaudojamos laboratorinėje aplinkoje.lt
dc.description.abstractOrganic synthesis procedures are descriptions of actions taken in the laboratory to synthesize an organic compound. Procedures for novel chemical compounds are developed by testing various parameters and synthesis sequences. Although chemists are able to in part approximate the required steps for the synthesis process, based on their expertise and knowledge, procedure development for novel compounds demands a significant amount of time and monetary resources. This research aims to propose methods that would generate synthesis instructions for novel compounds using effective machine learning methods. A primary synthesis procedure dataset was used to create 19 separate datasets containing synthesis action parameters of and 3 containing synthesis action sequence, reactant addition and reactant‘s solvent addition data. Three molecular vectorization types were tested: learned embedding, molecular fingerprints, and an encoder of molecular fingerprints. Three neural network types were tested: feed-forward, long-short term memory, convolutional neural networks. The best prediction of all continuous parameters resulted in R2 metric higher than 0.855. The achieved classification accuracy for all action types was higher than 0.799. The most accurate prediction accuracy for action sequence, reactant addition and reactant‘s solvent addition tasks were 0.896 ± 0.013, 0.586 ± 0.005 and 0.573 ± 0.049. The most accurate models use a molecular fingerprint encoder as a vectorization method that can compress the input matrix meaningfully. The optimal neural network type for most tasks is a long-short term memory neural network that can learn sequential dependencies of molecular features. The proposed methods can generate meaningful synthesis procedures which may be tested and used in laboratories.en
dc.description.sponsorshipInformatikos fakultetaslt
dc.description.sponsorshipTaikomosios informatikos katedralt
dc.format.extent74 p.-
dc.language.isoltlt
dc.rightsETD darbas prieinamas tik Universiteto intranete / University Intranet only-
dc.subjectMašininis mokymaslt
dc.subjectMachine learningen
dc.subjectOrganinė chemijalt
dc.subjectOrganic chemistryen
dc.subjectDirbtiniai neuroniniai tinklaslt
dc.subjectDeep neural networken
dc.subject.otherInformatika / Informatics (N009)-
dc.titleSintezės instrukcijų generavimo tyrimai naujiems cheminiams junginiamslt
dc.title.alternativeSynthesis procedure generation research for novel chemical compundsen
dc.typemaster thesis-
thesis.degree.disciplineTaikomoji informatika / Applied Informatics (M)-
item.fulltextWith Fulltext-
item.grantfulltextrestricted-
crisitem.author.deptTaikomosios informatikos katedra-
Appears in Collections:2021 m. (IF mag.)
Files in This Item:
Mantas_Vaškevičius_MD.pdf5.26 MBAdobe PDF   Until 2026-07-01View/Open

Show simple item record
Export via OAI-PMH Interface in XML Formats
Export to Other Non-XML Formats


CORE Recommender

Page view(s)

9
checked on Jun 6, 2021

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.