膜蛋白在生命体系中承担着跨膜信号转导和物质转运等关键功能。与可溶蛋白不同,膜蛋白表面有大量氨基酸残基暴露于生物膜的疏水环境内。早在数十年前,学界就尝试评估、预测蛋白质氨基酸残基与磷脂膜的接触互作情况,但受限于当时匮乏的结构数据与算法瓶颈,传统预测工具往往只能依赖朴素的物理化学统计或简单的二分类模型。
北京大学前沿交叉学科研究院定量生物学中心、北京大学-清华大学生命科学联合中心宋晨研究组于2022年在PLoS Comput. Biol.期刊发表了题为“Membrane contact probability: An essential and predictive character for the structural and functional studies of membrane proteins”的研究论文。该研究基于分子动力学(MD)物理模拟产生的大量数据,在深度学习时代提出了一个新的蛋白质特征量——“膜接触概率”(Membrane contact probability, MCP),用于表征蛋白质序列中各个氨基酸与磷脂膜疏水区域接触的可能性,并开发了首个从蛋白质序列出发,利用深度学习技术直接预测各残基膜接触概率MCP的计算方法。进而,团队利用MCP对膜蛋白残基可及性(RASA)进行了重新定义,将其拆分为溶剂可及性(RSA)及磷脂可及性(RLA)两部分,开发了可用于膜蛋白的高精度可及性预测器ProtRAP(J. Chem. Inf. Model. 2023)。
基于上述研究,宋晨团队近期进一步开发了多款面向膜蛋白预测与设计的计算工具,展示了“膜接触概率”和“磷脂可及性”在蛋白结构与功能研究中的广泛应用潜力,其中包括:1)蛋白质组水平的膜蛋白挖掘(ProtRAP-LM, Genom. Proteom. Bioinform. 2026);2)膜蛋白序列设计(MemConverter, J. Chem. Theory Comput. 2026);3)膜蛋白力学性质预测(MCP-ANM, PRX Life 2026);4)靶向细胞膜的抗菌肽筛选与设计(Adv. Sci. 2026; PepMCP, bioRxiv 2026)。

1. 蛋白质组水平的膜蛋白挖掘:ProtRAP-LM
膜蛋白占人类蛋白质组的20%−30%,其脂双层嵌入特性使得膜蛋白的实验识别及其准确定位较为困难,亟需高效准确的计算方法。尤其是,现有预测工具多集中于α-螺旋与β-桶状的跨膜蛋白,缺乏对膜锚定蛋白与外周膜蛋白的系统识别能力,限制了全蛋白质组尺度的膜蛋白筛选的完整性。宋晨团队针对此局限性开发了一种基于Transformer架构的新模型——ProtRAP-LM。该模型突破传统方法依赖多序列比对(Multiple sequence alignment, MSA)的瓶颈,利用蛋白质语言模型生成的嵌入向量作为输入特征,快速地预测给定蛋白质序列中每个残基的膜接触概率与相对可及性(含磷脂可及性),实现全面表征。该方法取得以下主要结果:1. 实现蛋白质组规模的极速预测:ProtRAP-LM在保持高精度的同时,预测速度较基于MSA的方法提升300倍以上,可在数小时内完成对多个蛋白组的膜蛋白识别,解决了大规模计算的速度瓶颈;2. 突破膜蛋白注释的覆盖范围:该方法能够对以往难以系统预测的膜蛋白类型(如单次跨膜蛋白、膜锚定蛋白及含β片的膜蛋白)进行更全面、准确的序列注释,弥补了领域内长期以来的技术短板。3. 构建跨物种膜蛋白资源库:该研究了提供涵盖48种代表性生物的膜蛋白列表(数量较传统基于跨膜片段识别膜蛋白的方法高出1%−8%),为未来深入探究这些关键生物大分子的结构与功能提供了数据基础。该工作近期发表于Genom. Proteom. Bioinform.期刊(doi: 10.1093/gpbjnl/qzag013)。

图1 ProtRAP-LM:基于膜接触概率和磷脂可及性的蛋白质组膜蛋白筛选。
2. 膜蛋白序列设计:MemConverter
膜蛋白设计是蛋白设计中的重要前沿方向,但由于其处于复杂膜环境中,其表达、纯化和结构功能研究通常显著难于可溶蛋白。因此,如何在保持蛋白整体折叠和功能框架的同时,重塑其对膜环境或水相环境的适配性,成为膜蛋白工程中的核心问题。传统方法多依赖表面残基替换等经验性知识,自动化和泛化能力仍然有限。膜接触概率和磷脂可及性是描述蛋白膜环境适配性的重要表征,用于刻画残基与膜疏水核心接触的概率,能够反映蛋白表面理化性质与膜环境之间的匹配程度。
宋晨团队近期发表的 MemConverter 工作进一步拓展了膜接触概率及磷脂可及性在蛋白设计中的应用,构建了一个面向膜蛋白与可溶蛋白双向转换设计的迭代流程,用于实现可溶蛋白向膜蛋白以及膜蛋白向可溶蛋白的定向改造。具体而言,MemConverter整合了MemProtMPNN / SolubleMPNN的序列生成能力、ProtRAP-LM 对目标序列所处化学环境性质的快速评估能力,以及 AlphaFold2的结构预测能力,通过多轮“序列设计—性质评估—结构微调”的迭代优化,对蛋白表面的亲疏水性等特征进行定向调控。研究表明,该方法在多个测试体系中均能获得与目标环境更匹配的设计序列,同时维持较高的序列质量与稳定性。MemConverter 为膜蛋白设计和可溶化改造提供了新的方法框架,也说明膜接触概率和磷脂可及性不仅可用于描述蛋白残基与膜疏水核心之间的匹配程度,还可进一步作为驱动蛋白定位转换与环境适配设计的重要约束信号。该工作近期发表于J. Chem. Theory Comput.期刊(doi: 10.1021/acs.jctc.5c01859)。

图2 MemConverter:基于膜接触概率和磷脂可及性的膜蛋白序列设计工具。
3. 膜蛋白力学性质预测:MCP-ANM
膜蛋白所处的复杂化学环境使得其力学性质不同于可溶蛋白,也使得膜蛋白力学性质的计算分析更具挑战性。许多膜蛋白通过感受外界力学信号刺激执行功能,其中的机械力敏感(Mechanosensitive, MS)离子通道是一类能够感知膜张力或外界机械刺激并发生构象变化的膜蛋白,在触觉、听觉、血压调节以及细胞体积稳态等生理过程中发挥重要作用。然而,这类蛋白的功能通常依赖于较大尺度的构象变化以及其与细胞膜之间的相互作用,传统实验方法难以迅速解析其动力学机制,而传统分子动力学模拟方法计算成本较高,不利于开展高通量研究。针对这一问题,宋晨团队发展了一种新的膜蛋白力学性质计算方法—MCP-ANM。该方法在传统各向异性弹性网络模型(ANM)的基础上引入膜接触概率MCP信息,通过对与膜接触的氨基酸残基施加方向相关的弹性约束,在不显式构建脂质分子的情况下引入各向异性,从而模拟膜环境对蛋白质动力学行为的影响。进一步地,研究将MCP-ANM与扰动响应扫描(Perturbation response scanning, PRS)方法相结合,用于模拟机械力作用下膜蛋白的构象响应过程。研究结果表明,MCP-ANM在多个膜蛋白体系中均能够更准确地预测实验结构中的温度因子(B因子)分布,相较传统ANM方法显著提升了膜蛋白结构柔性预测的准确性。同时,该方法能够有效模拟多种机械力敏感离子通道的门控机制。例如,在膜张力激活的通道(如MscL、MscS和PIEZO)中,模型成功再现了膜张力诱导的孔径扩张和整体构象变化;而在系链力激活的通道(如NOMPC)中,则能够捕捉由锚蛋白重复结构传递至通道孔区的力学耦合过程。模拟得到的机械敏感性趋势与实验观察结果具有良好一致性。与传统分子动力学模拟相比,尽管精度上有所不足,MCP-ANM方法具有显著的计算效率优势,可在普通工作站上快速完成膜蛋白体系的大尺度动力学分析,为机械力敏感膜蛋白的机制研究以及高通量筛选提供了一种高效的计算方法。该工作近期发表于PRX Life期刊(doi: 10.1103/xc5f-xr7n)。

图3 MCP-ANM: 基于膜接触概率MCP的膜蛋白力学性质预测与机械力敏感通道门控机制研究。
4. 靶向细胞膜的抗菌肽筛选
抗菌肽被认为是理想的抗感染候选药物,因其主要通过破坏细菌细胞膜发挥广谱抗菌作用,不易导致细菌耐药。近年来,尽管机器学习方法成功从不同物种的基因组、蛋白质组筛选出全新的抗菌肽,但此类工作均遵循“先发现后测定机制”的范式,无法直接筛选具有破膜机制的抗菌肽。因此,宋晨团队将膜接触概率MCP应用在这一问题上,开发了一种机制驱动的破膜抗菌肽预测筛选方法。该方法首先训练了一个SVM分类器识别破膜抗菌肽,并综合MCP、二级结构、反平行二聚化的预测,从蛙的蛋白质组中成功筛选出7条广谱、低毒、表现出破膜活性的α-螺旋抗菌肽,并通过与中科院物理所陆颖等团队合作,采用单分子荧光成像、电生理等实验测定了这些抗菌肽在膜上寡聚成孔的机制。研究结果表明,筛选获得的3条倾向于寡聚成孔的破膜抗菌肽表现出更为广谱的抗菌活性,说明了机制驱动在生物分子设计中的重要性以及膜接触概率MCP在膜结合肽的筛选与设计方面的应用价值。该工作近期发表于Adv. Sci.期刊(doi: 10.1002/advs.202516470)。

图4 机制驱动的破膜抗菌肽预测筛选。
事实上,宋晨团队之前发展的MCP预测器并非针对短肽开发,训练集中不包含25个氨基酸及以下的短肽数据。为了提升MCP在破膜抗菌肽预测任务上的准确性,团队进一步开发了多肽MCP预测模型PepMCP。该工作从文献中收集了五百余条经实验证实的破膜抗菌肽,通过粗粒化分子动力学模拟获得了它们各个残基与细菌细胞膜的接触概率,基于该数据训练了图神经网络模型PepMCP。该模型在测试集上的预测结果与真实值的Pearson相关系数达到0.883,RMSE为0.123,在多肽数据集上显著优于之前面向蛋白质的MCP预测模型。PepMCP不仅可以捕捉到破膜抗菌肽(特别是α-螺旋)与膜相互作用的模式,且可从可溶多肽中识别破膜抗菌肽,准确度达90%,有潜力用于筛选和设计新的破膜抗菌肽。该工作近期已在预印本网站bioRxiv发布(doi: 10.64898/2026.02.01.703163)。

图5 PepMCP研究流程和模型框架。
综上,宋晨团队基于其提出的膜接触概率MCP和磷脂可及性RLA,发展了一系列可用于膜蛋白及膜多肽的预测、筛选、设计等任务的计算工具。为了让研究者更便捷地使用这些工具,宋晨团队开发了在线计算服务器和数据库(http://www.songlab.cn/),公开了源代码(https://github.com/ComputBiophys),希望可以服务于生物物理、生物信息、合成生物等领域的发展,欢迎各位同行进行测试和使用。
北京大学前沿交叉学科研究院定量生物学中心王磊博士发展了膜接触概率MCP预测方法,并参与了后续的一系列工作;北京大学前沿交叉学科研究院PTN项目博士生康凯发展了蛋白质相对可及性预测器ProtRAP及ProtRAP-LM;清华大学生命科学学院PTN项目博士生李俊发展了膜蛋白序列设计模型MemConverter;北京大学定量生物学中心韩中杰博士发展了膜蛋白力学性质计算方法MCP-ANM;原北京大学定量生物学中心李佳轩博士(现烟台大学生命科学学院讲师)与合作者发展了机制驱动的破膜抗菌肽预测筛选流程;北京大学前沿交叉学科研究院PTN项目博士生董睿涵发展了多肽MCP预测模型PepMCP。上述研究得到了北京大学-清华大学生命科学联合中心、国家重点研发计划、国家自然科学基金委、以及北京大学成都前沿交叉生物技术研究院的资助。
参考文献
[1] Wang, L.; Zhang, J.; Wang, D.; Song, C.* Membrane Contact Probability: An Essential and Predictive Character for the Structural and Functional Studies of Membrane Proteins. PLoS Comput. Biol. 2022, 18, e1009972.
[2] Kang, K.#; Wang, L.#; Song, C.* ProtRAP: Predicting Lipid Accessibility Together with Solvent Accessibility of Proteins in One Run. J. Chem. Inf. Model. 2023, 63, 1058-1065.
[3] Wang, L.#; Kang, K.#; Song, C.* ProtRAP-LM: Efficient Protein Relative Accessibility Prediction and Proteome-Wide Membrane Protein Screening. Genom. Proteom. Bioinform. 2026, qzag013.
[4] Li, J.; Guo, H.; Song, C.* MemConverter: An Iterative Pipeline for Reprogramming Protein Localization in Membrane or Aqueous Solution. J. Chem. Theory Comput. 2026, 22, 2028–2042.
[5] Han, Z.; Wang, L.; Song, C.* Improved Anisotropic Network Models for Membrane Protein Dynamics and Mechanosensitive Ion Channels. PRX Life 2026, 4, 013025.
[6] Li, J.#; Yang, C.#; Dong, R.; Juarez, J.; Wang, L.; Wettstein, M.; Wang, D.; Cao, C.; Lu, Y.*; Song, C.* Mechanism-Driven Screening of Membrane-Targeting and Pore-Forming Antimicrobial Peptides. Adv. Sci. 2026, 13, e16470.
[7] Dong, R.; Awang, T.; Cao, Q.; Kang, K.; Wang, L.; Zhu, Z.; Song, C.* PepMCP: A Graph-Based Membrane Contact Probability Predictor for Membrane-Lytic Antimicrobial Peptides. bioRxiv 2026, 2026.02. 01.703163.