非核糖体多肽合成酶(Non-ribosomal peptide synthetase,NRPS)这一次级代谢途径制造了众多的药物,包括抗生素青霉素,免疫抑制剂环孢霉素和治疗耐多药结核病的抗生素紫霉素等,被认为是人类药物发现中的宝库。自NRPS途径于上世纪中叶被发现以来,科学家们一直致力于实现对其产物的精准预测和定向设计。然而,当前对NRPS的重编程仍面临着产率不高、底物预测不准等问题和挑战。此外,近年来通过实验发现了多种NRPS功能域亚型,尤其是缩合功能域(Condensation domain, C domain),但这些功能域的边界确定及标准化尚缺乏基于序列的生信预测方法,难以在大数据集中进行搜寻。
近年来,微生物测序数据迅速增长,为NRPS研究提供了机遇和挑战。一方面,大量的序列数据为深入理解NRPS通路的演化和功能提供了原材料;另一方面,研究者们对NRPS的结构域边界尚未形成统一的注释标准,这使得不同来源的数据难以被整合分析。因此,建立统一的注释标准以及开发高效的分析方法是当前亟待解决的问题。
2023年5月15日北京大学前沿交叉学科研究院定量生物学中心/生命科学联合中心李志远课题组与中国科学院微生物所真菌学国家重点实验室尹文兵课题组在《PLOS Computational Biology》期刊合作发表了题为“Knowledge-guided data mining on the standardized architecture of NRPS: subtypes, novel motifs, and sequence entanglements” (DOI: 10.1371/journal.pcbi.1011100) 的研究论文,对16,820个细菌基因组和2,505个真菌基因组中的NRPS序列进行了系统性分析,利用已知文献中的保守序列(motif)建立了NRPS的标准化框架。在此注释标准的帮助下,团队对已知的C domain subtype实现了基于序列特征的预测,填补了该领域中对真菌C domain subtype预测的空缺,并将已知的CT(terminal condensation-like) domain按照功能和序列特征细分成三个亚型(CT, CT-DCL, CT-A)。此外,团队还基于序列保守性鉴定了三个新motif,同时对于其中关键的G-motif的重要性进行了功能验证。通过定点突变及定向次级代谢产物检测等手段,在人类致病真菌烟曲霉中对fmq基因簇中NRPS中G-motif进行功能验证,结果显示G-motif对NRPS的功能有关键作用。此外,文章通过序列统计和分析解释了NRPS难以被重编程和底物预测准确率低的原因。最后,在北京大学前沿交叉学科研究院定量生物学中心钱珑助理研究员的生信团队的协助下,构建了用户友好的在线工具”NRPS motif Finder” (http://www.bdainformatics.org/page?type=NRPSMotifFinder),可以对NRPS进行结构域的边界进行标准化鉴定和C domain亚型预测。
图1. 在细菌和真菌中的C domain亚型分析和具有代表性的组织结构
团队建立了迄今为止最全面的C domain演化树,得以追溯C domain的演化历史。在16,820个细菌基因组和2,505个真菌基因组中,团队分析了C domain的亚型分布,发现细菌和真菌中的偏好的C domain亚型完全不同。进一步比较了同种C domain亚型在细菌和真菌中的序列特征,发现即便是在同一亚型内,细菌和真菌的序列特征也不完全相同。最后,研究者基于全面的分型对基因组中的NRPS组织结构进行了统计,发现了一些典型的NRPS组织结构,其中多数的产物都是铁载体。
图2. 统计耦合分析揭示了NRPS中的共进化序列
研究者通过统计耦合分析发现NRPS中的共进化序列彼此重叠。这解释了为何很难对NRPS进行重编程:没有一个简单的切点可以将不同共进化区域分隔开。现在使用的切点都只覆盖了部分共进化区域。
图3. 决定底物的特异性序列与催化口袋中的5个结构可变区的长度有关
基于标准化NRPS框架,研究者用统计耦合分析了NRPS中决定底物的特异性序列,发现一些底物特异性位点位于结构可变区(loop)。对这些可变区的长度进行聚类发现对于相同的底物,属于不同长度组别的底物特异性位点序列不同。这表明底物不只由底物特异性位点所决定,解释了部分底物的预测准确率低的原因。
北京大学前沿交叉学科研究院定量生物学中心2020级博士生贺若霖为该论文第一作者。中国科学院微生物所博士研究生张金玉为第二作者。北京大学前沿交叉学科研究院定量生物学中心/生命科学联合中心李志远研究员和中国科学院微生物所尹文兵研究员为论文的共同通讯作者。北京大学前沿交叉学科研究院定量生物学中心/生命科学联合中心顾少华博士后、宋晨研究员和钱珑助理研究员对本工作有重要贡献。北京大学前沿交叉学科研究院生命科学联合中心2019级博士生邵远哲参与了该工作。
这项工作得到了科技部重点研发计划、国家自然科学基金、国家博士后创新人才支持计划、北京大学临床医学+X青年专项、中央高校基本科研业务费专项、中国科学院生物资源计划和中国科学院前沿科学重点研究计划的资助。