Options
Sintezės instrukcijų generavimo tyrimai naujiems cheminiams junginiams
Organinės sintezės instrukcijos – tai aprašymai, kaip ir kokius veiksmus reiktų atlikti, kad būtų sukurtas naujas junginys. Laboratorijoje metodika (instrukcija) naujų junginių sintezei yra kuriama keičiant ir testuojant įvairias cheminių procesų parametrų reikšmes. Nors specialistai chemikai, remdamiesi patirtimi ir žiniomis, geba dalinai planuoti sintezės procesą, naujų cheminių junginių sintezės metodikos vystymui reikia daugiausiai laiko bei investicijų visoje naujo cheminio junginio kūrimo procese. Šio darbo tikslas – pasiūlyti efektyvią mašininio mokymo metodiką, kuri leistų kiek galima tiksliau generuoti sintezės instrukcijas naujiems cheminiams junginiams. Iš cheminių sintezės instrukcijų duomenų rinkinio buvo sudaryta 19 skirtingų žingsnių parametrų (temperatūros, žingsnio tipo, naudojamų tirpiklių) duomenų rinkinių ir dar 3 papildomi duomenų rinkiniai – žingsnių sekos, reagentų sudėjimo, reagentų tirpiklių sudėjimo (iš viso 22 duomenų rinkiniai). Tyrimo metu spręsti tolydžių parametrų prognozės (žingsnių Stir, Heat, Wait, Cool, Purify parametrų), žingsnių tipo klasifikavimo (žingsnių Remove, Partition, Recover tipo), etikečių klasifikavimo (žingsniuose Wash, Purify, Dry, Extract, Partition, Precipitate, Quench, Degass naudojamų tirpiklių) uždaviniai. Testuoti trys molekulių vektorizavimo metodai: išmokti įterpiniai, molekuliniai antspaudai ir molekulinių antspaudų enkoderis. Eksperimentuota su skirtingais neuroninių tinklų tipais: tiesinio sklidimo, ilgos-trumpalaikės atminties rekurentiniu ir konvoliuciniu neuroniniu tinklu. Visų tolydžių parametrų prognozės uždavinių vertinimui naudotas R2 įvertis, o pasiekta reikšmė > 0,855. Visų žingsnių tipo klasifikavimo uždavinių vertinimui naudota taiklumo (accuracy) metrika, o pasiektas rezultatas > 0,834. Visiems žingsnių etikečių klasifikavimo uždaviniams buvo pasiektas taiklumas > 0,779. Žingsnių sekos prognozės uždaviniui pasiektas 0,896 ± 0,013 taiklumas, reagentų sudėjimo – 0,586 ± 0,005, reagentų tirpiklių sudėjimo – 0,573 ± 0,049. Geriausi rezultatai pasiekti molekulių antspaudų autoenkoderio vektorizavimo metodu, kuris geba reikšmingai suspausti molekulių antspaudų matricą. Tiksliausias neuroninių tinklų tipas – ilgos-trumpalaikės atminties (LSTM) metodas, atsižvelgiantis į iš eilės pateikiamų molekulių savybes bei gebantis išmokti jų sąsajas. Sukurta metodika leidžia efektyviai generuoti reikšmingas sintezės instrukcijas, kurios gali būti testuojamos ir panaudojamos laboratorinėje aplinkoje.
Organic synthesis procedures are descriptions of actions taken in the laboratory to synthesize an organic compound. Procedures for novel chemical compounds are developed by testing various parameters and synthesis sequences. Although chemists are able to in part approximate the required steps for the synthesis process, based on their expertise and knowledge, procedure development for novel compounds demands a significant amount of time and monetary resources. This research aims to propose methods that would generate synthesis instructions for novel compounds using effective machine learning methods. A primary synthesis procedure dataset was used to create 19 separate datasets containing synthesis action parameters of and 3 containing synthesis action sequence, reactant addition and reactant‘s solvent addition data. Three molecular vectorization types were tested: learned embedding, molecular fingerprints, and an encoder of molecular fingerprints. Three neural network types were tested: feed-forward, long-short term memory, convolutional neural networks. The best prediction of all continuous parameters resulted in R2 metric higher than 0.855. The achieved classification accuracy for all action types was higher than 0.799. The most accurate prediction accuracy for action sequence, reactant addition and reactant‘s solvent addition tasks were 0.896 ± 0.013, 0.586 ± 0.005 and 0.573 ± 0.049. The most accurate models use a molecular fingerprint encoder as a vectorization method that can compress the input matrix meaningfully. The optimal neural network type for most tasks is a long-short term memory neural network that can learn sequential dependencies of molecular features. The proposed methods can generate meaningful synthesis procedures which may be tested and used in laboratories.