发布时间:2023-11-06 11:52 原文链接: Isoseq全长转录组测序助力拟南芥蛋白质异构体的发现

背景

  植物科学中常以高通量的方式(组学)研究生物体不同层次的复杂性,通常整合多组学数据以获得生物体发育或在不同环境条件下的生物学的准确图像。目前,全长异构体测序(Iso-Seq)与短读长转录组学和蛋白质组学的整合已经成功地用于增加蛋白质异构体的表征,不仅有助于提高基因组和转录组的质量,而且有助于通过蛋白质基因组学方法鉴定由单个基因序列产生的不同功能的蛋白质异构体的多样性。

  西班牙Jesús Pascual团队在plants上发表了题为“The Integration of Data from Different Long-Read Sequencing Platforms Enhances Proteoform Characterization in Arabidopsis”的研究。

  在本文中,研究人员分析了Iso-Seq和ONT-DRS数据对拟南芥质谱蛋白质组学数据中蛋白质异构体表征的影响。结果表明,将来自Iso-Seq和ONT-DRS的长读长测序数据整合到蛋白质基因组学中,可以增强蛋白质组学研究中的蛋白质异构体的表征和发现。这给当前的蛋白质搜索算法带来了挑战,同时也为进一步研究生物系统提供了一个很好的机会。

结果

  1 研究中所用的不同的拟南芥蛋白质数据库

  研究人员选择了一个与衰老叶片相关的蛋白质组学数据集,并使用三个不同的蛋白质数据库进行蛋白质异构体对比:AtRTD2、AtRTD3(包含Iso-seq高置信度转录组数据),一个定制的混合数据库AtONT-DRS(包含AtRTD3与叶片ONT-DRS转录组学数据)。其中AtRTD3是最新版本的转录组数据集,主要基于从一系列样品和处理中产生的Iso-Seq数据,包括不同非生物胁迫下的器官和植物样本。

图1. 本研究中使用的不同蛋白质数据库概述。

  分析表明AtRTD2包含82,190个转录本,64,484个蛋白异构体,每个蛋白家族1.9个;相比之下,AtRTD3包含169,503个转录本,109,706个蛋白异构体,每个蛋白家族2.9个,转录本数目是上一版本AtRTD2中的两倍;AtONT-DRS包含的转录本数量要少得多,包含43,811个转录本,38,092个蛋白异构体,每个蛋白家族1.9个(图1A)。

  为了避免算法低估AtONT-DRS识别蛋白质异构体的潜力,研究人员还将AtONT-DRS附加到AtRTD3中 (AtRTD3_AtONT-DRS)中执行蛋白质搜索算法(补充数据S4)。AtRTD3_AtONT-DRS包含212,308个转录本,包含了37,937个蛋白质家族的118,597种蛋白质异构体,每个蛋白质家族有3.1种蛋白质异构体(图1A)。

  总之,不同的蛋白质数据库代表不同的拟南芥蛋白质组,包含不同的蛋白质异构体以及潜在的新型蛋白异构体。值得注意的是,Iso-seq生成的转录组数据(AtRTD3)在蛋白质水平上提供了更多的丰富度和复杂性,是目前拟南芥最准确和全面的转录组数据集。

  2 Iso-Seq和ONT-DRS数据的整合增强了蛋白质组学数据中蛋白质异构体的表征

  利用AtRTD2、AtRTD3和AtRTD3_AtONT-DRS对拟南芥衰老叶片的24个部分组成的蛋白质组学数据进行蛋白质blast,这是拟南芥蛋白质组质谱分析流程的一部分[29]。这三个数据库鉴定出相似数量的蛋白质家族,它们之间有12,057个蛋白质重叠(图2A)。有趣的是,260个蛋白被AtRTD2单独鉴定,67个蛋白被AtRTD3_AtONTDRS单独鉴定(图2B)。

图2. 拟南芥衰老叶片的蛋白质组学数据中鉴定出的蛋白质家族。

  在蛋白质水平上,随着数据库中蛋白质数量的增加,鉴定的蛋白异构体的数量减少(图3A)。研究人员在三个数据库中发现了3,979个蛋白质异构体的重叠(图3A)。此外,AtRTD3和AtRTD3_AtONT-DRS之间存在明显的重叠,考虑到后者的构建方式,这并不奇怪(图3B)。AtRTD2和AtRTD3的交集包括385个蛋白异构体(图3B)。此外,AtRTD2单独鉴定出2,437种蛋白,AtRTD3鉴定出258种,AtRTD3_AtONT-DRS鉴定出199种(图3B)。

  关于与AtRTD2鉴定的大量蛋白质家族和蛋白质异构体进行进一步分析揭示了一个比较复杂的情况。AtRTD2中包含的大量蛋白家族不存在于AtRTD3或AtRTD3_AtONTDRS中。进一步分析AtRTD2鉴定的肽及其分配到的蛋白质异构体,并与AtRTD3_AtONT-DRS鉴定的肽进行比较,发现在某些情况下,AtRTD2中给定蛋白质异构体在使用AtRTD3_AtONT-DRS时要么分配到另一个蛋白质异构体,要么分配到另一个蛋白质序列非常相似但属于不同蛋白质家族的蛋白质异构体。这个观察结果证明了测试的数据库版本之间的注释不一致。这可能是由于在蛋白质搜索过程中,从不同的蛋白质异构体数据集生成的肽和鉴定置信度差异的结果。

图3. 拟南芥衰老叶片MS蛋白质组学数据中鉴定的蛋白质异构体。

  3 基于Iso-Seq和ONT-DRS测序数据鉴定更多与叶片衰老相关的蛋白质异构体

  本研究中使用的蛋白质组学数据来自拟南芥衰老叶片。为了进一步探索新的蛋白质异构体,研究人员采用了一种组合方法,将PacBio Iso-Seq和ONT-DRS转录组学数据纳入蛋白质数据库:首先对样本的RNA-Seq数据进行了差异基因表达分析,共发现4,277个差异表达基因(log2FC > 1.5|,校正p值< 0.05))。其中,331种至少鉴定出一种来自于Iso-Seq或ONT-DRS的蛋白质异构体。然后进一步分析从长读长蛋白质数据中鉴定出的蛋白质异构体,结果表明AtRTD3中包含的76个蛋白家族的93种Iso-Seq蛋白异构体与叶片衰老相关,如谷氨酰胺依赖性天冬酰胺合成酶1 (ASN1; AT3G47340)在衰老叶片中表达上调,其表达与细胞的糖水平有关。总之,研究人员从蛋白质家族中鉴定出了更多来自Iso-Seq的蛋白异构体和来自AtONT-DRS的蛋白异构体,这表明了长读长转录组测序数据应用于蛋白质基因组学方法的潜力。

  以ACO1为例,研究人员在衰老叶片的蛋白质组学数据中鉴定出了ACO1的4个蛋白异构体:来自Iso-Seq的AT4G35830.19和AT4G35830.31,来自AtONT-DRS的5a450a46-3da6-4e33-8234818a708504d8和adca2c20-e47f-4e1f-a07b-48f3fdbab3d8。这四种蛋白异构体来源于四种转录异构体,它们具有不同的外显子,来自不同的可变剪接事件,具有不同的预测编码相关特征,如过早终止密码子(PTC)(图4)。相比之下,AtRTD2仅包含3种ACO1蛋白异构体(补充数据S2)。

  总之,包含来自Iso-seq的蛋白质信息可以鉴定与叶片衰老相关的新蛋白质异构体,还通过增加参考蛋白质组中蛋白质的覆盖率,提高了蛋白质异构体识别的准确性。

图4. 采用组合的长读长蛋白质基因组学方法表征拟南芥衰老叶片中的ACONITASE 1蛋白异构体类型。

讨论

  从一个基因产生多种蛋白质异构体的能力代表了蛋白质功能的多样化,并对植物生理,包括发育和胁迫反应产生影响。在这项研究中,研究人员使用蛋白质基因组学方法来评估来自第三代测序转录组学数据的蛋白质信息对鉴定来自于来自拟南芥衰老叶片的蛋白质组学数据的蛋白质异构体的影响。

  蛋白质鉴定是任何自下而上的蛋白质组学分析工作流程的中心步骤。通常,蛋白质鉴定依赖于蛋白质数据库,其鉴定结果的稳健性取决于所用参考蛋白质数据库(包括注释)的完整性和准确性。长读长测序技术,特别是基于HiFi测序(读长10-25 kb,准确率90%>Q30)的Iso-seq,可以无需拼接完成全长转录本的检测,以高准确度的转录本检测反映更加真实的蛋白异构体信息:提高蛋白质异构体鉴定的准确性;提高每个基因鉴定出的蛋白质异构体数量,发现更多新的蛋白质异构体,从而可以更好地表征拟南芥衰老叶片的蛋白质组。但同时,充分利用长读长蛋白基因组学方法也需要新的计算开发和设计新的算法和策略,去处理日益复杂的蛋白质数据库。

相关文章

英国成立功能基因组学实验室

近日,英国科研与创新署(UKRI)宣布,医学研究理事会(MRC)、剑桥大学米尔纳治疗研究所(MTI)等联合成立功能基因组学实验室,作为英国卓越研究中心和国家资源中心,汇集英国生命健康领域学术界、产业界......

科学家绘制小细胞肺癌蛋白基因组学图谱

肺癌是全球癌症致死的首位原因,而小细胞肺癌约占肺癌总数的15%,是所有肺癌亚型中恶性程度最高、预后最差的亚型,5年生存率仅为5%。与非小细胞肺癌形成鲜明对比,小细胞肺癌的治疗手段单一,患者总生存率低。......

我国科研人员绘制小细胞肺癌蛋白基因组学图谱

肺癌是全球癌症致死的首位原因,而小细胞肺癌约占肺癌总数的15%,是所有肺癌亚型中恶性程度最高、预后最差的亚型,5年生存率仅为5%。与非小细胞肺癌形成鲜明对比,小细胞肺癌的治疗手段单一,患者总生存率低。......

2023基因组学Top40公司股价同比下降7%,哪家却在逆势飞升?

基因组学公司股票在2023年普遍下跌,远落后于大盘。总体而言,基因组网前40名在2023年同比下跌了7%。与2022年相比,前40名暴跌34%。如果不是因为整体市场表现强劲,道琼斯工业平均指数(DJI......

950万!中国科学院水生生物研究所高通量测序系统采购项目

项目概况中国科学院水生生物研究所高通量测序系统采购项目招标项目的潜在投标人应在www.oitccas.com;北京市海淀区丹棱街1号互联网金融中心20层获取招标文件,并于2023年12月18日09点3......

不同平台的二代测序技术

二代测序技术基于大规模平行测序技术(massiveparallelanalysis,MPS),它能同时完成测序模板互补链的合成和序列数据的获取。主要可以分成Roche454焦磷酸测序、Illumina......

高通量测序平台及其性能参数介绍

Roche454、Illumina、Solexa和ABISOLiD为主的三个测序平台,目前最主流的二代测序平台是Illumina所生产的测序仪,包括MiSeq系列、HiSeq系列、NextSeq系列等......

高通量测序发展史

人类基因组计划(humangenomeproject,HGP)在介绍高通量测序发展之前,需要先为大家介绍一个人类发展史上的一项重要创举——人类基因组计划(humangenomeproject,HGP)......

南京师范大学国际合成生物学研究中心揭牌:擘画“一城三园”千亿蓝图

11月5日,南京师范大学国际合成生物学研究中心揭牌,诺贝尔化学奖得主、世界顶尖科学家协会主席罗杰·科恩伯格教授担任中心首席科学家。这一“官宣”,让百公里外的常州为之振奋:上月,由常州市政府、常州高新区......

技术赋能基因测序新趋势,华大智造DNBSEQG400高通量测序仪

华大智造,这个在基因测序领域一直以创新引领潮流的企业,近日再次证明了其在该领域的领先地位,发布了其最新产品——DNBSEQ-G400高通量测序仪。这款创新型基因测序设备以其卓越的性能和突破性的技术,为......