来鲁华课题组揭示了多结构域蛋白质拓扑结构与别构调控关系

2023-03-09 17:06:23

别构效应是指蛋白质的生物功能由远离功能位点处的扰动(配体结合、残基突变、共价修饰等)所调控的现象。结构域是蛋白质的结构、功能和进化单元,多结构域蛋白质是由单结构域蛋白质通过结构域复制和组合进化而来。单结构域蛋白质和多结构域蛋白质都可以被别构调控。对于多结构域蛋白质而言,结构域的排列以及结构域之间的相互作用影响着蛋白质的功能。来鲁华课题组此前的研究发现别构位点更多地出现在蛋白质的结构域或亚基之间,一些特定折叠(Fold)类型的结构域更有利于别构调控。但蛋白质拓扑结构如何决定别构调控以及如何基于拓扑结构预测别构位点尤其是预测隐藏别构位点仍需进一步探索。

隐藏别构位点是一类通常在蛋白质的自由态(apo)结构中不可见,仅在有特定别构配体结合的复合物(holo)结构中才出现的别构位点,隐藏别构位点的发现可以极大地扩展可用药物靶标的范围。但是目前已发现的隐藏别构位点大多是在高通量筛选实验或长时间分子动力学模拟中偶然发现的,这些方法十分耗时且难以采样充分,因此亟需发展能够快速和全面地确定隐藏别构位点的计算方法。

近期,北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北京大学-清华大学生命科学联合中心来鲁华课题组研究了蛋白质结构域间的拓扑关系与别构位点的关系,发现别构位点倾向于位于具有相同折叠类型的结构域之间,在此基础上发展了使用kernel-SVM预测别构位点尤其是隐藏别构位点在蛋白质拓扑图上位置的方法TopoAlloSite,该研究揭示了自然界进化出的结构域或亚基组合在很大程度上决定了相应的蛋白质功能如何被别构调控。相关研究近日发表在The Journal of Chemical PhysicsXie, Juan#; Pan, Gaoxiang#; Li, Yibo; Lai, Luhua*. "How Protein Topology Controls Allosteric Regulations." The Journal of Chemical Physics (2023). DOI: https://doi.org/10.1063/5.0138279)。

为了研究蛋白质的整体拓扑结构对别构调控的影响,他们首先从蛋白质结构分类数据库CATH中查找出了别构蛋白质的结构域的划分以及结构域对应的fold类型。随后构建了每个别构蛋白质结构的拓扑图,图中节点为结构域或别构配体,如果两个结构域之间的接触面积大于300 Å2,或结构域与别构配体之间的最近距离小于4 Å,则在相应的节点之间建立边。研究发现数据集中90.5%的拓扑图包含多个结构域节点,表明大部分别构蛋白质由多个结构域或多条链组成。进一步分析别构位点在蛋白质拓扑图中的位置,发现别构配体倾向于结合在具有相同fold类型的两个或两个以上的结构域之间(图1)。

                                               

1. 别构位点在蛋白质拓扑图中的分布。(a)别构配体的配位数的分布。(b)别构配体结合的结构域的类型分布。一个字母代表一个结构域,相同字母代表相同fold类型的结构域。


基于以上分析,他们进一步发展了基于蛋白质整体拓扑结构来预测别构位点的方法TopoAlloSite,主要采用噪声对比估计(Noise Contrastive Estimation) 策略来预测别构配体在拓扑图中的位置。为了获取真实数据的分布函数 p(x),作者将训练集中复合物拓扑图中的配体节点去除,在每个图中随机加入配体节点生成服从已知分布φ(x)的假图,随后训练kernel-SVM分类器r(x)以区分真图与假图。真实分布p(x)可从贝叶斯公式推理出(图2a):

在这里kernel-SVM使用subgraph-matching kernel来比较两个图中配体节点周围环境的相似程度。而在subgraph-matching kernel中,又需要计算每个子图匹配中结构域节点的相似度,为此,作者设计了利用结构域的CATH分类和配位数信息的核函数。在预测中,TopoAlloSite首先枚举出蛋白质拓扑图上所有的潜在位点,对称等价的潜在位点被归为一组,随后使用公式(1)对各组潜在位点进行打分并将得分归一化成RScoreRScore大于阈值的潜在位点被预测为别构位点(图2b)。


2. TopoAlloSite的工作流程。 (a) 训练过程; (b) 预测过程。


由于TopoAlloSite仅使用蛋白质整体的拓扑结构来预测别构位点,不依赖于口袋探测,因此适合用来预测隐藏别构位点。例如在M. smegmatis辅酶A生物合成双功能蛋白CoaBC中,隐藏别构位点位于CoaB的二聚界面。当将CoaBC holo结构输入到TopoAlloSite中时,得到真实隐藏别构位点的RScore1.00,在所有位点中排名第一(图3a),即TopoAllosite能正确预测出这里的隐藏别构位点。由于实际中经常遇到的是没有结合别构配体的apo结构, TopoAlloSiteapo CoaBC结构上仍然正确预测出了真实的隐藏别构位点,其对应的RScore0.74,排名第二。TopoAlloSite也正确预测出了apoholo态的亚精胺合酶(SpdSyn)与NAD+依赖性蛋白赖氨酸脱酰酶sirtuin 6Sirt6)中的隐藏别构位点(图3b,c),展示了TopoAlloSite预测隐藏别构位点的潜力。


3. TopoAlloSite对蛋白质中隐藏别构位点的预测结果。(a) CoaBC; (b) SpdSyn; (c) Sirt6.

总的来说,该研究通过构建和分析别构蛋白质的结构域拓扑图,发现别构位点倾向于位于具有相同折叠类型的结构域之间。在此基础上发展了基于蛋白质整体拓扑结构的别构位点预测方法TopoAlloSite,可以有效预测隐藏别构位点。该研究表明蛋白质的整体拓扑结构在很大程度上决定了其功能如何被别构调控,进化过程中所涌现出的多结构域蛋白质在完成复杂生物功能的同时给出了调控方式。TopoAlloSite将有助于了解别构调控的机制、定位潜在的别构位点并加速别构药物的发现。

北京大学前沿交叉学科研究院定量生物学中心博士后谢娟和北京大学化学与分子工程学院博士研究生潘高翔为本论文的共同第一作者,北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北京大学-清华大学生命科学联合中心来鲁华教授为本论文的通讯作者,生命科学联合中心博士研究生李亦博参与了该研究工作。该研究得到了国家自然科学基金重点项目和中国医学科学院创新项目的资助。