Naujų cheminių junginių cheminės sintezės instrukcijų generavimo metodai
Anotacija
Šiame darbe nagrinėjami pažangūs mašininio mokymosi ir natūralios kalbos apdorojimo metodai, pritaikyti specifiniams cheminės sintezės uždaviniams, su orientacija į jų formalizavimą ir įgyvendinimą informatikos priemonėmis. Tradiciniai sintezės planavimo metodai yra imlūs laikui, priklausomi nuo eksperto patirties ir dažnai grindžiami bandymų ir klaidų principu. Dirbtinio intelekto pasiekimai, ypač didelių kalbos modelių ir giliojo mokymosi algoritmų srityse, atveria naujas galimybes šioje srityje. Tyrimas pristato programinius sprendimus ir metodologijas kristalizacijos tirpiklių prognozavimui, struktūrizuotos informacijos išgavimui iš patentų tekstų bei detalių sintezės instrukcijų generavimui tiek konkrečioms, tiek bendro pobūdžio reakcijoms. Darbe siūloma nauja metodologija, apimanti duomenų rinkinių kūrimą, neuroninių architektūrų adaptavimą ir modelių taikymą cheminiams uždaviniams bei leidžianti prognozuoti sintezės procedūras. Sukūrus struktūruotus duomenų rinkinius ir pritaikius transformacinius modelius, pasiektas automatinis detalių laboratorinių nurodymų generavimas iš molekulinių duomenų. Modeliai molT5-large ir FLAN-T5, kurių BLEU įvertinimai viršija 47, parodo aukštą prognozių kokybę. Ateities tyrimai turėtų būti orientuoti į duomenų įvairovės plėtrą, pažangesnius cheminės informacijos išgavimo metodus ir kelių žingsnių sintezės planavimą.