来鲁华课题组: 多层级的图神经网络促进蛋白质功能预测

2023-07-04 12:17:45

高通量测序的发展导致了蛋白质序列数量的大幅增加。然而,由于实验研究周期长、费用昂贵,大部分蛋白质序列缺乏功能注释。因此,自动而准确地推断蛋白质功能的计算方法具有重要意义。

深度学习的进展促进了各种蛋白质功能预测模型的发展。蛋白质的三维结构与功能直接相关,而结构相似的蛋白可能具有高度多样的序列,仅依赖基于序列的模型(如1D CNNTransformer)可能难以捕捉长程的功能位点规律。随着蛋白质结构预测研究的突破性进展,获取蛋白质接触图或三维结构变得更加容易。这赋予了图神经网络(GNN)更多的优势,可以编码蛋白质的三维结构信息从而预测其功能。然而目前的GNN模型还存在一些限制:(1GNN的过度平滑问题限制了网络的层数,使得捕捉远距离的结构相关性变得困难。(2)简单的图池化过程(平均或最大池化)将所有残基同等看待,难以捕捉对蛋白质功能至关重要的残基。因此,需要设想一种有效的方法以自适应的方式生成蛋白质表示。

2023628日北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心来鲁华课题组与北京大学数学科学学院/前沿交叉学科研究院定量生物学中心邓明华课题组合作在Bioinformatics上发表了题为“Hierarchical Graph Transformer with Contrastive Learning for Protein Function Prediction”的研究论文。该研究提出了一种新的蛋白质功能预测方法:Hierarchical graph transformEr with contrAstive Learning (HEAL)HEAL利用Hierarchical Graph TransformerHGT)捕捉结构信息,通过引入模仿功能motif的超节点来与蛋白质图中的残基节点进行交互。这些超节点嵌入(embeddings)以不同的权重被聚合,池化产生蛋白图的embeddings。为了增强网络的表达力,HEAL引入了图对比学习以最大化不同视图之间的相似性。

图1. HEAL模型对蛋白质的建图方式及网络架构。

在被广泛使用的PDBch测试集上,研究者将模型的表现与基于序列比对的传统方法(BlastFunFams)、基于序列特征的1d CNN深度学习模型DeepGO以及基于结构特征的GNN模型DeepFRI进行了对比。结果显示,HEAL使用了更小的蛋白质数据集训练,取得了最好的表现,不仅大幅超越基于序列比对的传统方法(BlastFunFams),并且大幅超越了深度学习模型DeepGODeepFRI

表1. 不同方法在PDBch测试集上的表现

此外,研究者根据PDBch测试集中序列与训练集的序列一致度(sequence identity)划分,评估了HEAL模型的泛化能力。相比DeepGODeepFRI方法,HEAL具有出色的泛化能力。

图2. HEAL模型与其他方法在不同序列相似度下的泛化能力比较。

为了测试模型在缺乏实验解析结构与已标注同源序列的更真实场景下的应用,研究者构建了更具挑战性的AFch测试集,并将模型与将前述的DeepFRI、结合了1d CNN序列学习模型与同源序列比对的DeepGOPlus在此测试集上进行了比较。结果表明HEAL模型借助AlphaFold2预测的结构,在功能预测上取得了最佳的效果,在真实的应用场景下更具有潜力。

图3. HEAL模型与其他方法在缺乏实验结构与标注的同源序列的AFch测试集上的比较。

基于Grad-CAM方法,研究者将网络输出结果的贡献定位到每个残基上,以探究HEAL模型的可解释性。Grad-CAM给出的结果显示,分子结合位点附近的残基具有更强的信号。此外,根据BioLiP数据库收录的结合位点信息,Grad-CAM信号可以较好地预测结合位点。

图4. HEAL模型具有出色的可解释性,能够提示发挥功能的残基位点。

北京大学前沿交叉学科研究院北大-清华生命科学联合中心博士研究生顾仲晖与北京大学数学科学学院已毕业的罗霄博士为本论文的共同第一作者。北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心来鲁华教授、北京大学数学科学学院/前沿交叉学科研究院定量生物学中心邓明华教授为本论文的共同通讯作者。北京大学前沿交叉学科研究院定量生物学中心的博士研究生陈佳晓为该研究提供了帮助与支持。

该研究得到了国家重点研发项目(2022YFA1303700)、国家自然科学基金重点项目(2203300132270689) 和中国医学科学院 (2021-I2M-5-014) 的资助。


原文链接:https://doi.org/10.1093/bioinformatics/btad410