胆汁酸是肠道微生物调控宿主健康与代谢稳态的关键代谢物之一,是介导肠道微生物与宿主间信息交流的“密码”。虽然目前已经发现了近千种菌源胆汁酸类分子,但其合成途径大部分尚不清楚。胆汁酸代谢酶的发现与解析复杂耗时,且往往仅能从特定胆汁酸和产生菌出发识别相关代谢酶,缺乏高效的筛选策略。近年来,人工智能(AI)技术在酶的功能预测1和全新功能酶挖掘2方面取得了重要进展。如果能利用AI学习胆汁酸代谢酶所具备的特征,就有可能从大规模的蛋白序列数据中快速筛选出潜在的新型胆汁酸代谢酶,帮助实验高效解析胆汁酸的菌源合成途径。
2025年8月7日,北京大学定量生物学中心/化学与分子工程学院/北大-清华生命科学联合中心来鲁华教授团队与医学部基础医学院姜长涛教授、药学院马明教授以及基础医学院汪锴研究员团队合作,在Cell杂志发表了题为Identification of gut microbial bile acid metabolic enzymes via an AI-assisted pipeline的研究论文,创造性地使用“底物口袋相似性”进行数据增强,开发了基于AI的胆酸代谢酶预测工具BEAUT及其交互式在线平台(https://beaut.bjmu.edu.cn/),在菌株和蛋白水平上验证了BEAUT发现胆汁酸合成酶的能力。基于BEAUT的预测结果,合作者通过实验发现了3-O-乙酰胆酸水解酶MABH、新骨架类型菌源胆汁酸3-乙酮脱氧胆酸(3-acetoDCA)及其代谢酶ADS,还发现3-乙酮脱氧胆酸在人群中广泛存在并具有重要的生理功能。

文章链接:https://doi.org/10.1016/j.cell.2025.07.017
使用AI技术进行全新功能的酶挖掘一般需要考虑以下因素:大多数新发现的蛋白质仅有序列信息,缺少实验确定的三维结构;筛选具备特定功能的酶可以视作一个二分类任务(有/无功能),但往往面临数据匮乏的限制,需要选择合适的特征提取和数据增强策略;庞大的未知蛋白序列数据要求模型具有较高的预测速度。团队使用蛋白语言模型ESM-23提取蛋白序列与功能相关的特征,利用全连接神经网络预测序列是否为胆汁酸代谢酶。为获得胆汁酸代谢酶的序列数据,团队首先从UniProt中清洗得到151条已知的胆汁酸代谢酶序列,并使用约10万条不具备胆汁酸代谢功能的酶序列作为负样本。由于已知的胆汁酸代谢酶数量过少,无法直接训练AI分类模型,需要进行数据增强。
考虑到胆汁酸分子具有相似的甾体环结构,与酶活性口袋的相互作用存在相似之处,团队收集了蛋白质结构数据库中已知的酶-胆酸复合物结构,利用来鲁华教授团队开发的Cavity口袋分析工具4提取酶的活性口袋,利用PocketMatch工具5比较口袋相似性,发现尽管不同的胆汁酸代谢酶序列和结构差异较大,但结合胆汁酸底物的活性口袋具有相似性。团队使用Cavity工具分析得到了已知胆汁酸代谢酶中的85个活性口袋,然后以文献报道的具备高胆汁酸代谢多样性的7种微生物蛋白组为起点,使用ESMFold3进行蛋白质结构预测、Cavity口袋提取与过滤口袋并用PocketMatch进行口袋相似性计算,找到2330个可能的胆汁酸代谢酶用做AI模型训练的正样本增强序列(图1)。

图1 BEAUT使用的数据增强策略
团队在此基础上建立了BEAUT模型。模型构建整体流程如图2所示。在5折交叉验证中BEAUT模型的平均AUPRC为0.80,平均F1-score达到0.72,平均召回率为0.75。这表明BEAUT能有效预测低同源性的潜在胆汁酸代谢酶。

图2 BEAUT模型构建流程
研究团队使用BEAUT对约234万条人体微生物参考基因组包含的蛋白质进行了筛选,发现了约60万条潜在的菌源胆汁酸代谢酶,并构建了人体微生物胆汁酸代谢酶(HGBME)数据库(https://beaut.bjmu.edu.cn/database)。进一步评估了108株肠道菌对于5种胆汁酸(CA/CDCA/DCA/LCA/3-oxoDCA)的代谢能力,发现代谢能力与BEAUT预测的潜在代谢酶数量正相关。合作团队在预测结果中选择了102种酶进行实验验证,评估对于5种胆汁酸的代谢能力,发现其中有47种酶能够代谢至少一种胆汁酸(图3)。这表明BEAUT可以用于预测完全未知的胆汁酸代谢酶,可以大大提高对实验发现胆汁酸代谢酶的效率。

图3 BEAUT预测的102条潜在菌源胆汁酸代谢酶的实验验证结果
基于BEAUT对菌株蛋白组的预测筛选,合作研究团队首次发现了肠道细菌Hungatella hathewayi中代谢3-酰基胆酸的酰化胆酸水解酶MABH(图4左)。由于3-酰基胆酸是一种肠道FXR强抑制剂,能有效改善宿主代谢紊乱,所以MABH可能是潜在的代谢疾病靶标。该酶的序列在UniProt中被自动标注为Sialate O-acetylesterase家族成员,无法据此推断出该酶代谢胆汁酸的功能。此外,研究团队还通过BEAUT首次发现了独特的“双尾素”类胆汁酸3-乙酮脱氧胆酸(3-acetoDCA)及其合成酶ADS(图4右)。3-乙酮脱氧胆酸是首次发现的全新碳骨架类型胆汁酸,与经典的胆汁酸受体均无相互作用,但能调控肠道共生菌Lactobacillus gasseri等乳杆菌的生长,并促进小鼠体内吲哚-3-乳酸的产生,介导了一类肠道菌群互作的新模式。

图4 BEAUT成功发现了菌源胆汁酸代谢酶MABH和ADS,和一种全新碳骨架胆汁酸3-acetoDCA
胆汁酸的发现距今已过去100多年,但人们仍未能完全发现全部的胆汁酸类型及其代谢途径,胆汁酸的丰富生理功能还有待进一步解析。本工作创造性的引入“口袋相似性分析”解决了AI在小样本情景下的应用难题,成功构建了人体微生物菌源胆汁酸预测模型BEAUT,并预测了60余万条潜在的菌源胆酸代谢酶。BEAUT可通过交互式在线平台(https://beaut.bjmu.edu.cn/)供研究者使用。BEAUT的实验验证表明其可以有效预测具有全新功能的菌源胆汁酸代谢酶,并发现了3-酰基胆酸水解酶MABH和3-乙酮脱氧胆酸的合成酶ADS。BEAUT是人工智能与化学和生命科学研究结合的成功范例,将进一步推动人工智能在相关研究领域中的应用。
姜长涛教授、来鲁华教授、马明教授与汪锴研究员为本文的共同通讯作者。北京大学医学部基础医学院副研究员丁勇、博士后罗茜,化学与分子工程学院博士研究生郭家盛、药学院博士研究生邢佰颖以及前沿交叉学科研究院博士后林豪禹为本文的共同第一作者。来鲁华教授团队博士研究生郭家盛开发了BEAUT工具并整理了HGBME数据集,博士后林豪禹开发了BEAUT在线平台。本研究得到国家自然科学基金专项项目、重大研究计划集成项目、重点项目,以及国家重点研发计划项目等经费支持。
来鲁华教授团队长期致力于推动物理化学与生命科学交叉研究,应用物理模型与人工智能相关的方法研究蛋白质结构与功能关系、进行功能蛋白质与药物设计,开发了一系列具有前瞻性的生物活性分子设计方法与计算软件,包括综合性蛋白质结合位点分析平台CavityPlus4,基于靶标结构的药物全新设计方法LigBuilder6,基于AI和靶标结构的药物分子生成方法DeepLigBuilder7,基于药效团与AI生成模型的药物分子设计方法TransPharmer8,基于扩散模型的蛋白质-配体柔性对接方法DiffBindFR9,基于图神经网络的蛋白质功能预测算法HEAL10,蛋白质序列设计方法GeoSeqBuilder11,靶标结合多肽设计方法DiffPepBuilder12、CycDockAssem13,化学分子合成路线设计方法AutoSynRoute14,化学分子逆合成预测算法SimpRetro15,化学反应条件预测方法Reacon16等,并在困难靶标药物设计中取得了系列重要进展17。
1. Yu, T., Cui, H., Li, J.C., Luo, Y., Jiang, G., Zhao, H. (2023). Enzyme function prediction using contrastive learning. Science 379, 1358-1363.
2. Huang, J., Lin, Q., Fei, H., He, Z., Xu, H., Li, Y., Qu, K., Han, P., Gao, Q., Li, B., et al. (2023). Discovery of deaminase functions by structure-based protein clustering. Cell 186, 3182-3195.
3. Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., Smetanin, N., Verkuil, R., Kabeli, O., Shmueli, Y., et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science 379, 1123-1130.
4. Wang, S., Xie, J., Pei, J., Lai, L. (2023). CavityPlus 2022 Update: An Integrated Platform for Comprehensive Protein Cavity Detection and Property Analyses with User-friendly Tools and Cavity Databases. Journal of Molecular Biology 435, 168141.
5. Yeturu, K., Chandra, N. (2008). PocketMatch: A new algorithm to compare binding sites in protein structures. BMC Bioinformatics 9, 543.
6. Yuan, Y., Pei, J., Lai, L. (2011). LigBuilder 2: A Practical de Novo Drug Design Approach. J. Chem. Inf. Model. 51, 1083-1091.
7. Li, Y., Pei, J., Lai, L. (2021). Structure-based de novo drug design using 3D deep generative models. Chem. Sci. 12, 13664-13675.
8. Xie, W., Zhang, J., Xie, Q., Gong, C., Ren, Y., Xie, J., Sun, Q., Xu, Y., Lai, L., Pei, J. (2025). Accelerating discovery of bioactive ligands with pharmacophore-informed generative models. Nat. Commun. 16, 2391.
9. Zhu, J., Gu, Z., Pei, J., Lai, L. (2024). DiffBindFR: an SE(3) equivariant network for flexible protein–ligand docking. Chem. Sci. 15, 7926-7942.
10. Gu, Z., Luo, X., Chen, J., Deng, M., Lai, L. (2023). Hierarchical graph transformer with contrastive learning for protein function prediction. Bioinformatics 39, btad410.
11. Liu, J., Guo, Z., You, H., Zhang, C., Lai, L. (2024). All-Atom Protein Sequence Design Based on Geometric Deep Learning. Angew. Chem. Int. Ed. 63, e202411461.
12. Wang, F., Wang, Y., Feng, L., Zhang, C., Lai, L. (2024). Target-Specific De Novo Peptide Binder Design with DiffPepBuilder. J. Chem. Inf. Model. 64, 9135-9149.
13. Zhang, C., Wang, F., Zhang, T., Yang, Y., Wang, L., Zhang, X., Lai, L. (2025). De Novo Design of Cyclic Peptide Binders Based on Fragment Docking and Assembling. J. Chem. Inf. Model. 65, 4206-4218.
14. Lin, K., Xu, Y., Pei, J., Lai, L. (2020). Automatic retrosynthetic route planning using template-free models. Chem. Sci. 11, 3355-3364.
15. Li, J., Lin, K., Pei, J., Lai, L. (2024). Challenging Complexity with Simplicity: Rethinking the Role of Single-Step Models in Computer-Aided Synthesis Planning. J. Chem. Inf. Model. 64, 5470-5479.
16. Wang, Z., Lin, K., Pei, J., Lai, L. (2025). Reacon: a template- and cluster-based framework for reaction condition prediction. Chem. Sci. 16, 854-866.
17. Sun, Q., Wang, H., Xie, J., Wang, L., Mu, J., Li, J., Ren, Y., Lai, L. (2025). Computer-Aided Drug Discovery for Undruggable Targets. Chem. Rev. 125, 6309-6365.