来鲁华、裴剑锋团队在化合物逆合成路线分析研究上取得进展

2020-03-13 20:53:57

对于给定的目标化合物,用计算机程序自动推荐完整合理的有机化学合成路线,即计算机辅助化合物合成路线规划(Computer-Aided Synthesis Planning,CASP)一直是化学家的愿景。CASP 方法根据 E. J. Corey 提出的逆合成分析方法,基于化学反应规则来预测合成路线。化学反应规则分为专家总结规则和计算机自动提取规则两类。人工提取反应规则耗时耗力,难以满足新的有机化学反应一直不断快速增长的需求,也无法用于预测新的化学反应。对于自动反应规则的提取,已经有了一些研究,所提取的规则一般仅考虑反应中心原子和邻近原子,难以准确描述化学反应的全貌,目前还不完善。

近年来,人工智能技术已被用于化学反应产物预测和逆合成分析,有望突破现有逆向合成分析技术的瓶颈。目前人工智能辅助的化合物合成路线规划的出发点主要还是大规模的反应数据库和人工提取的反应规则。来鲁华、裴剑锋团队使用人工智能自然语言处理技术 Transformer 作为核心框架,基于端对端策略发展了只需要输入目标产物分子,就能预测出产物到前体的单步逆合成分析方法,在单步逆合成反应预测中获得了很好的准确率。


北京大学定量生物学中心

图1.  AutoSynRoute工作流程。利用 Transformer 架构发展了单步反应预测模型,利用单步反应预测模型将目标分子转化为较简单的中间分子,重复这个过程可以得到末端原料分子。AutoSynRoute 使用了基于启发式打分的蒙特卡洛树搜索方法(MCTS)。

 

在单步逆合成反应预测的基础上,进一步发展了自动化的化合物有机合成路线规划工具 AutoSynRoute(图 1)。AutoSynRoute 首先对所预测的多种候选反应进行启发式打分,再整合蒙特卡洛搜索算法(MCTS)方搜索出最佳的反应路线组合。AutoSynRoute 可以很好地复现文献报道的化合物合成路线,显示了在化合物合成路线自动规划上的应用潜力。

AutoSynRoute 实现了不基于化学反应规则的化合物逆合成路线自动分析。该工作的初稿于2019年5月首发于预印本平台Chemrxiv,正式文章近日以 “Automatic Retrosynthetic Route Planning Using Template-Free Models” 为题在线发表在 Chemical Science 杂志上(https://pubs.rsc.org/en/content/articlehtml/2020/sc/c9sc03666k。来鲁华教授和裴剑锋研究员为论文的通讯作者,化学与分子工程学院博士生林康杰和博士后徐优俊为论文共同第一作者。值得一提的是,林康杰和徐优俊曾参加2019“默克杯”逆合成反应预测大赛,并获得冠军。该工作获得了重大新药创制科技重大专项、国家自然科学基金、国家重点研发计划的资助和支持。北大-清华生命科学联合中心高性能计算平台为该研究提供了部分计算资源。