来鲁华团队开发了同时提高活性与稳定性的AI蛋白设计新方法

2025-10-12 17:03:59

近年来,深度学习技术在蛋白质序列与功能设计领域取得了突破性进展。基于蛋白质结构训练的深度学习算法虽然能够生成具有高稳定性的序列,但由于缺乏对蛋白质动态与功能信息的有效建模,导致其在功能设计(尤其是酶设计)中表现欠佳,所生成的设计序列往往因过度稳定化而丧失理想的催化活性。蛋白质大语言模型的兴起为这一领域带来了新的机遇,这类模型通过利用海量蛋白质序列数据进行预训练,能够捕捉进化过程中隐含的关键功能位点信息。虽然蛋白质大语言模型能够生成具有生物活性的功能蛋白,但所设计蛋白的催化性能大多难以超越天然酶,需要依赖少样本学习或主动学习等策略构建"计算-实验-反馈"的多轮迭代优化流程,才能获得符合要求的设计序列。这种设计范式显著降低了实验通量与效率,也大幅增加了研发成本。因此,迫切需要开发能够同时提升蛋白质活性和热稳定性的新算法,来满足高效酶设计、生物催化、蛋白质药物设计和工业化生产等的需求。

北京大学定量生物学中心、化学与分子工程学院、北大-清华生命科学联合中心、北京大学成都前沿生物技术研究院来鲁华教授团队发展了功能蛋白质设计的新型深度学习模型GeoEvoBuilder(图1)。该模型包括团队前期开发的基于结构的蛋白质序列设计模型GeoSeqBuilder、蛋白质大语言模型ESM2和一个计算联合概率的适应性连接模块,通过掩码迭代策略实现序列优化设计。研究结果表明GeoEvoBuilder不仅继承了GeoSeqBuilder在结构稳定性序列设计上的优势,同时有效捕获了与蛋白质功能相关的关键位点进化信息。这一框架使其在天然蛋白酶优化和功能蛋白设计中展现出广泛适用性。该工作近日发表在《美国国家科学院院刊》(https://doi.org/10.1073/pnas.2504117122)上。

Fig1

1. GeoEvoBuilder算法框架和序列设计流程

 

研究团队应用GeoEvoBuilder对于多个蛋白进行了序列优化设计,通过一轮设计就获得了活性与热稳定性同时提高的蛋白质。例如,针对谷胱甘肽过氧化物酶4和二氢叶酸还原酶,仅通过单轮设计与实验验证就成功获得了催化效率提升10-20倍、同时热稳定性提高约10℃的优化序列;所设计出的绿色荧光蛋白突变体最大激发波长红移了70 nm,在470 nm激发下其荧光最大发射强度是野生型的2.3倍。研究团队成功解析了多个高活性设计蛋白的高分辨率晶体结构,并结合分子动力学模拟及作用网络分析进行了分析,揭示了远端的残基如何通过长程相互作用网络调控酶活的分子机制。与现有绝大部分蛋白质工程算法相比,GeoEvoBuilder的独特之处在于其生成的活性序列中可以含有超过30%的多点突变,这些数据为深入理解蛋白质序列-结构-功能关系提供了丰富的进化研究数据。该方法可直接应用于零样本学习场景,无需依赖温度或活性导向信息的预训练即可同步提升蛋白质的热稳定性和活性,这一特性使其在工业酶设计等领域具有重要的应用价值。GeoEvoBuilder目前已开源(https://github.com/PKUliujl/GeoEvoBuilder),欢迎对此感兴趣的研究人员使用。

 

北京大学北大-清华生命科学联合中心2025届已毕业博士生刘佳乐(现中国药科大学教师),化学与分子工程学院博士后由瀚天、北大-清华生命科学联合中心博士生郭政为该论文的共同第一作者。上海同步辐射光源徐琴博士为本研究做出了重要贡献。北京大学化学与分子工程学院来鲁华教授和张长胜副研究员为本论文的共同通讯作者。本研究得到了国家重点研发计划和国家自然科学基金项目以及北京大学高性能计算平台的支持。

 

论文信息&链接:

 [1] Jiale Liu, Hantian You, Zheng Guo, Qin Xu, Changsheng Zhang*, Luhua Lai*, GeoEvoBuilder: A deep learning framework for efficient functional and thermostable protein design, Proceedings of the National Academy of Sciences USA (2025)122.41: e2504117122. https://doi.org/10.1073/pnas.2504117122

[2] https://github.com/PKUliujl/GeoEvoBuilder

[3] Jiale Liu, Zheng Guo, Hantian You, Changsheng Zhang*, Luhua Lai*, All-Atom Protein Sequence Design Based on Geometric Deep Learning. Angew Chem Int Ed Engl (2024)63: e202411461.