这篇文章终于见刊了。回头想想,我不想发模式化的新闻稿了,就只想跟大家多唠唠——这其实算是我进入微生物次级代谢产物研究的第一个工作(Zhiyuan Li, Laura P Ióca, Ruolin He, Mohamed S Donia, Natural diversifying evolution of nonribosomal peptide synthetases in a defensive symbiont reveals nonmodular functional constraints, PNAS Nexus, Volume 3, Issue 9, September 2024, pgae384, https://doi.org/10.1093/pnasnexus/pgae384)。
这篇工作讲的其实就是这件事:
图1. 一些感慨
——演化带来了生命的一切,也给数据分析带来了最大的干扰,让errorbar比图还大。
——但有一个奇奇怪怪的小细菌,在自己的基因组里掀起巨浪,把这个演化干扰给冲掉了,留下了真正重要的功能信息。
故事的开始——事已至此,先吃饭吧
生物中离谱的事太多,总让我不时感叹"还有这事?"
而我获取这些有趣信息的方式,很多时候不是来自文献,而是来自于跟真正搞生物的人一起吃饭瞎聊——所以还是得多吃饭。
大概8年前在普林斯顿做博后时,我们一群中国留学生总是很饿,于是约着出去找家正宗的中餐馆聚餐——每人点道菜,大家一起吃,最后AA。管你人熟不熟,芋头烧肉熟了就行。那时我正好和金东坐在一起。吃着总得闲聊两句,他就问我:“我听说你做计算生物学?那你会用计算机画图吧?”
我:“会的。”
金东:“那能帮我画张图么?我手里有个菌,你能在一个环形的基因组示意图里画出它的某类基因的位置,再画个演化树吗?”
我:“没问题,给我基因组和你要的基因的ID,几天的事。”
天上一天,地上几年来着?
奇怪的变长基因
过了几天,我问金东:"注释错了吧?还是你给的基因ID错了?这些基因都叫NRPS,它们的核酸序列长度怎么能差个几倍啊?"——序列分析我还是学过的,名字一样的东西应该是同源的,有同一个祖先,它们的长度就该基本呈单峰分布。
金东:没错的,微生物次级代谢就是这样的。
我:还有这事?
于是我被科普了如下的东西:
【知识窗1】次级代谢产物:微生物用来帮助塑造环境、帮助自身生存的一系列高度多样的外泌"武器"。"次级"得名于它在环境优越时(比如实验室有研究生照顾它时)不分泌,环境糟糕时就疯狂分泌。包括但不限于各种各样的抗生素、毒素、维生素、群感信号分子,以及我们现在最感兴趣的铁载体等。
【知识窗2】NRPS:非核糖体多肽合成酶(Non-ribosomal peptide synthetase,NRPS)——是的,它是一个绕过中心法则直接从氨基酸合成多肽的合成酶——但它跟RNA world没啥关系,因为它自己就是个上千个氨基酸起步的巨大的酶(我总是被问到这个问题)。它是微生物中最广泛的次级代谢酶系统之一,能够合成结构复杂和活性都高度多样的分泌型多肽产物。这些产物包括许多重要的抗生素,如青霉素、万古霉素、搏来霉素等。
有趣的是,NRPS蛋白是由重复的模块(module)构成的,像个组装肽产物的流水线,每个模块往产物链上加一个氨基酸底物(图2)。一般来说,这个酶有多少个模块,就能合成多少个氨基酸的产物。在微生物中,1个模块的NRPS有之,20个模块的也有(意味着这个酶有两三万个氨基酸,大得离谱)。每个模块里最基本的骨架是三个蛋白功能域(domain):C,A,T,正好拼凑成一只猫。其中,A domain负责选择底物,稍微不同的口袋构象就能选出不同的底物;T domain负责把产物"拿好";C domain负责把前后两个模块的产物和底物"粘"一起,传递给下一个模块。除了CAT这个基本结构外,一些"可选择"的修饰功能域也可能出现在模块中——比如,E domain如果跟在T domain后,氨基酸底物的手性就从常见的L型变成D型。从不同的模块数,到上百种可选的不同底物,再到不同的修饰功能域,NRPS系统的多样性潜能简直离谱,方便微生物干仗干到飞起。
图2. NRPS的模块化结构示意图(来自于贺若霖同学的中期PPT)
NRPS这么个奇怪的通路在微生物里挺普遍的,平均一个基因组也就1-2条。比如大肠杆菌K12就有一条NRPS负责造铁载体enterobactin。
但金东这个黄杆菌有点特别。
首先,这个黄杆菌是从夏威夷黑海滩分离的,比我们还会享受生活。
其次,这个黄杆菌是个寄生菌,全称Ca. E. kahalalidifaciens,简称cEK。它寄生在一种羽藻的细胞内,充当这个海藻的"雇佣军",为海藻制造能把海蛞蝓赶走的毒素——毒素由NRPS合成。这个菌把20%的基因组都用来造NRPS,足足有20条,而且至少有13条是"完好"的。最短的只有一个模块,最长的有13个模块,可以说是相当下血本了(图3)。。
图3. 羽藻中的“雇佣军”Ca. E. kahalalidifaciens和它基因组中的20条NRPS通路
搞基因组分析需要有所建树,当时金东就说,把这20条cEK的NRPS序列建个演化树,这分析就差不多了。
我问:这些NRPS长度都差好几倍,一起做多序列比对不太合适,那是用它的头部序列还是尾部序列建树?合作者觉得,都可以,应该没啥差别。就跟你测个基因来推算谱系,总不至于脚上取个样测出来还是个智人,从头部取样就成了尼安德特人吧。
然而做计算的好处就是"都算算"不怎么花钱,我的习惯就是能想到的都算一下。
结果还真不一样。两棵树不能说有点不像,只能说毫无关联(图4)。
图4. Ca. E. kahalalidifaciens中的13条完好的NRPS的头部序列所建的演化亲缘树(圆点下方)和尾部序列所建的演化亲缘树(圆点上方)
对于这种离谱现象比较靠谱的解释是,cEK这菌里的NRPS可能有点爱重组,大家多多少少换过头和尾巴。有了假说就得验证一下,我就把cEK里所有NRPS的核酸序列在电脑上细细切碎做臊子,每两对臊子都比一下序列相似性。比出来的结果略微离谱——这20条NRPS之间的重组率比其它黄杆菌高至少一个数量级,而且重组的都是NRPS上或长或短的一部分序列(图5)——它们没事儿就疯狂地拆换自己的头和尾和身上的长长短短的片段,丢来丢去,难怪头和尾的演化历史完全不一样。
图5. cEK NRPS之间的疯狂重组。(A)中每条连线都代表一次推断出的重组事件,而(B)示例了9条NRPS中片段重组的频繁程度——红、蓝、绿色的聚类树各自连起3组在NRPS-15中出现的基因片段,而和这些片段高度相似的核酸片段以迥然不同的方式散步在其它不同的NRPS中。
合作者哇了几下。我们把这种疯狂重组行为命名为“diversifying evolution”,先发了个文章描述一下 (https://www.science.org/doi/full/10.1126/science.aaw6732)。
然后合作者还告诉我一件有趣的事:因为NRPS这个"以模块化的流水线生产肽链"的特性,数十年来合成生物学一直蠢蠢欲动,梦想着做NRPS的重编程——把一个个抓取特定底物的模块切开后拼接起来,那不就是要什么产物有什么产物!两三百种非蛋白源氨基酸随你挑!(图6)
图6. iGME 2013: NRPS Designer
现实往往是nothing make——重编程出的NRPS有时就拒绝转录翻译成酶,有时哪怕蛋白出来了,它也拒绝生产出人们所期待的产物——这个拼装出的流水线惯常罢工。
研究者们就开始想,是不是哪里没有拼对。比如说,有人就认为,同一个模块的C domain和A domain在功能上是偶联的,得被拼在一起。
面对cEK这百来个模块,我就想,要不要看看它们的C domain和A domain到底有没有功能偶联?
蛋白域之间的功能偶联怎么看?最简单的方法是看它们之间的"序列距离"是不是彼此关联——例如,模块1中的C domain和模块2中的C domain高度相似,那么这两个模块里的A domain是不是也高度相似呢?如果是,那么它们就可能有功能偶联;如果说不定,那它们的序列距离放到x-y轴上就会散成一个饼,毫无关联(图7)。
图7. 左图是一个假想的模块化酶,由三种类型的蛋白域组成,分别以凹多边形、圆形和凸多边形表示(也以X,Y,Z指代)。“m”表示模块。右图示意了通过计算同一类型的蛋白域之间的两两距离产生出的距离矩阵, 而两个类型之间的关联程度由它们各自的矩阵之间的相关系数来定量。
然后我发现,在cEK这个奇怪黄杆菌里,同一个模块的C domain和A domain的序列距离几乎毫不相关。同样的,同一个模块里的任意两种蛋白域,例如A domain和T domain,C domain和T domain,也都是毫无相关,主打一个随心所欲(图8)。这就有点奇怪了——不仅一条NRPS的头和尾没关系,连每个模块中的蛋白域都没关系。
图8. 左边是示意,展示两个在同一模块中的蛋白域的序列距离的关联是如何计算的;右边是实际计算出的C,A,T,E等功能域之间的序列距离关联。
更奇怪的在后面——尽管同一个模块中的C domain和T domain毫无距离关联,把它们各自拿来聚类后,它们聚类图的结构又非常像(图9)。
图9. cEK蛋白域(C,A,T,E)的序列距离的各自聚类的热图。其中,C和T的聚类团簇很相似,都是大中小三个cluster
跟另一位导师Ned Wingreen讨论时,他说,你zoom in一下,会不会是C和T domain不在同一个模块里,但在相邻的模块里有关联?嘿,还真是。前后相邻的两个模块里,前面的T和后面的C的序列距离高度相关,相关系数接近1(图10)。
图10. 前后相邻的模块中,前面模块的T和后面模块的C的距离是高度相关的——它们耦合起来了。
一个流水线,流水线里的每只干活的猫自己的头不管尾巴,倒是跟前面一只猫的尾巴接上了。当时实在有点想不通(图11)。
图11. CAT。
海浪模型
想不通就一直想,直到某个晚上开车回家时也在想,差点撞到了鹿。停车等鹿过马路时,也许是不知道怎么就想到了一百里外的大西洋,突然就悟了——重组就是海浪。
大部分的生物系统中,演化树本身带来了最大的干扰——同一个基因组或基因簇中的不同部分因为共享着同样的演化历史,导致它们之间无论如何看起来都是关联着的(phylogenetic autocorrelation),无论功能上是否相互耦合。
而这个黄杆菌里的重组太多了,不同的基因片段换来换去,就像海浪冲刷岸边的沙子和贝壳,每天都冲出些不一样的组合来。演化历史被浪冲掉了。所以,一个模块里的蛋白域之间能做到几乎毫无关联。大浪淘沙。
但海浪撼不动礁石。如果某些片段之间具有功能上的强耦合——换了以后整条NRPS就不工作了,那么,这些部分就不会被换掉,或者换掉后的细菌活不下来(图12)。
图12. 不同演化模式(左:常规的duplication-divergence mode,右:diversifying evolution mode)下,模块化的基因中演化关联(圆形和凹多边形)的功能性关联(凹多边形-凸多边形)如何能在序列距离上被观测到。
所以我们以为的CAT的模块不是NRPS的真正的功能单元。T和下一个模块的C才是,它们连成了一块礁石。
所以我们以为的CAT的模块不是NRPS的真正的功能单元。T和下一个模块的C才是,它们连成了一块礁石。
想通了分析起来就一路顺畅——再zoom in,一个氨基酸地比,我们看见两件事(图13):
T domain,下一个模块的C domain,甚至延伸到下个模块的A domain之间的interdomain,都和“手性”这个功能相关:当它们中间有个改变底物手性的E domain时,它们的序列是一种;当没有E domain时,又是另一种。这一大片序列,构成了cEK NRPS中的“手性功能单元”。
这个“手性功能单元”横跨了两个相邻的模块。甚至,它不包括完整的蛋白域——它从T domain中间的一小片保守基序(T1 motif)开始,包括了接下来的整个C domian和可能的E domain,以及大部分C和A domain之间的连接区域,直到另一小片保守基序(CA motif)才结束。
图13. cEK NRPS中的手性单元。上图的左至右依次为基于T蛋白域的氨基酸序列的层次聚类树状图所排列的T、C蛋白域和C–A间域的序列距离矩阵。树状图右侧色块分别显示了NRPS通路标识和手性亚型(L type 和D type)。下方条形图是T域、C域和C–A间域在多序列比对后得到的平均序列距离(条形高度)和氨基酸与手性亚型之间的互信息(条形颜色)。手性功能单元从T1基序开始,以CA基序结束(红色片段)。Bode组的两篇NRPS重编程工作中的切点用绿色箭头指出。
接下来的问题就是:这些有趣的,在cEK这个夏威夷寄生菌中发现的规律,是对于这个奇怪菌的特例,还是对于大部分NRPS都成立?我接下来分析了多物种的NRPS大数据库,发现这个T和next C的关联确实也在,就是以前被演化导致的无处不在的关联给挡住了。
跟金东一聊,他说:还有这事?
跟他一合计,突然很多关于NRPS重编程的事都说得通了:蛋白结构的单元不是功能和重组的单元,所以一个一个模块完整地切下来再拼接是不行的,得切到模块中间的结构间域(切CA motif),甚至蛋白域中间去(切T motif)。
赶快发吧,金东说,做NRPS编程的大佬,Bode组,最近有篇preprint上线了,切点好像就是在C和A domain之间,离cEK 的手性单元的终点不远。
7年
“在国外,被问到的最尴尬的问题是什么?”
“——你那篇文章怎么还没发?”
----------------那是7年多以前的一天上午,我记得肚子有点不舒服,不过还在跟合作者发信息:“请还是快点把数据发给我吧,我尽快分析出来。Bode组的新文章的切点和我们看到的重组位点差不多,如果趁机把我们的工作发出来很有意思。我这里进入预产期,娃生出来之后我可能就得有一两个月没法编程了。”
当天晚上,我抱上了我的宝贝——现在这个二年级的小家伙如果按照海淀标准是不是该开始卷编程了——是从C、Python、MATLAB还是Fortran开始呢——算了还是继续看你的小猪佩奇去吧。
合作者觉得我们的分析可以很好地预测这个菌中的新产物,想要等等实验,并要求我把产物的头部和尾部的性质也通过序列预测一下。
反正前面已经发了一篇了,我想等等就等等吧。
然后回国,来了定量生物学中心,拉到个很有探索热情的本科生贺若霖来做毕设。我们就从这个工作开始。我说,草稿已经写了大半了,你来帮忙看看头部和尾部的性质预测。若霖盯了几天序列,转头来说怎么我们和他们定义的A domain的长度都不一样。这也激励了我们去年在 PLOS Comp上发出来的那篇对NRPS定标准坐标的文章(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011100)。
在若霖过了开题报告后,合作者把实验做出来了——我们对cEK NRPS的功能单元划分,能很好地在这个已经被研究了几十年的天然产物系统中预测并找到新的化合物。
然后,我们看到,2023年Bode组又找到了另一个NRPS重编程的切点——从T domain中间切开,就在cEK手性单元的起点。
若霖现在已经过了预答辩了,预计明年就avilable for postdoc。
总之这篇海浪模型最后还是发出来了。已经不错了,多少Project 是从Research In Progress进展到Research Rest in Peace。
哦对,我们发展了些简单的生信工具,看到这个奇怪的重组频率比别的菌高数量级的寄生菌里,重组酶跟别家的不太一样,好像能增强重组效率。不过那又是另一个故事了。
新章
不过,这整个project给我带来的最大收益,就是发现了微生物次级代谢这个非常刺激的领域,特别是NRPS这玩意太有意思了——多样、高代价、自己不造还能偷别人的产物吃,写满了微生物之间的爱恨情仇。
回国后,依然是一次吃饭,我遇上了南农的韦老师,他说:既然你做NRPS,要不要看看铁载体?它大部分是NRPS合成的,微生物用它来摄取铁。
我:地球上铁很多啊,是什么极端环境中的微生物需要摄取铁么?
韦老师:几乎所有微生物都缺铁。
我:还有这事?