Transforming chemical languages: leveraging mT5-based transformers for bidirectional conversion between SMILES and IUPAC nomenclatures
Shtopko, Mykhailo |
Tikslus supaprastintos molekulinės įvesties sistemos (SMILES) nomenklatūros ir Tarptautinės teorinės ir taikomosios chemijos sąjungos (IUPAC) nomenklatūros vertimas yra labai svarbus norint sukurti tiltą tarp kompiuterinio ir žmogui suprantamo cheminių medžiagų vaizdavimo. Šiame tyrime pristatomas mT5 transformatorių taikymas SMILES ir IUPAC vertimui, siekiant įveikti taisyklėmis grindžiamų ir ankstesnių mašininio mokymosi metodų trūkumus. Naudodami 120 mln. molekulių duomenų rinkinį iš PubChem, sukūrėme ir išmokome mT5 grindžiamus modelius versti cheminius pavadinimus į abi nomenklatūras. Mūsų modeliai pasiekė aukštą tikslumą ir BLEU-4 balus, taip parodydami geresnį našumą, palyginti su esamais mašininio mokymosi sprendimais. Pažymėtina, kad modelių našumas skyrėsi priklausomai nuo cheminės struktūros sudėtingumo: pagrindiniai modeliai buvo pranašesni už mažus modelius, ypač kai junginiai praturtinti tam tikromis funkcinėmis grupėmis ar struktūrinėmis savybėmis. Tyrime nagrinėjamas modelio architektūros dydžio ir įvesties simbolių ilgio apribojimų poveikis vertimo tikslumui. Tyrime taip pat lyginama sukurta Python biblioteka „Chemical-Converters“ su esamais įrankiais, parodant, kad gerokai pagerėjo apdorojimo greitis ir tikslumas. Šiuo darbu prisidedama prie chemoinformatikos, pateikiant patikimas priemones, kurios padidina cheminių duomenų prieinamumą ir patogumą naudoti, remiant mokslinius tyrimus ir plėtrą įvairiuose sektoriuose.
Accurate translation between Simplified Molecular Input System (SMILES) nomenclature and International Union of Pure and Applied Chemistry (IUPAC) nomenclature is critical to building a bridge between computational and human-readable chemical representations. This study presents the application of mT5 transformers to convert between SMILES and IUPAC, aiming to overcome the limitations of rule-based and earlier machine learning approaches. Using a dataset of 120 million molecules from PubChem, we developed and trained mT5-based models to translate chemical names into both nomenclatures. Our models achieved high accuracy and BLEU-4 scores, demonstrating superior performance compared to existing machine learning solutions. Notably, the performance of the models varied depending on the complexity of the chemical structure, with basic models outperforming small models, especially for compounds enriched in certain functional groups or structural features. The study examines the impact of model architecture size and input token length constraints on translation accuracy. The study also compares the developed Python library "Chemical-Converters" with existing tools, showing significant improvements in processing speed and accuracy. This work contributes to chemoinformatics by providing robust tools that enhance the accessibility and usability of chemical data, supporting scientific research and development across multiple sectors.