发布时间:2021-04-02 09:06 原文链接: 布鲁克:利用CCS检测和深度学习研究4D蛋白质组学

  近日,Matthias Mann教授团队和Fabian Theis教授组*共同在《Nature Communication》上发表开创性成果,标题为“Deep learning the collisional cross sections of the peptide universe from a million experiment alvalues”。(doi.org/10.1038/s41467-021-21352-8)1

  * Matthias Mann教授在德国马克斯·普朗克生物化学研究所和丹麦哥本哈根大学Novo-Nordisk基金会蛋白质研究中心担任双重职务。Fabian Theis教授在慕尼黑亥姆霍兹中心的德国环境卫生研究中心和德国慕尼黑大学数学系担任双重职务。

  研究亮点

  * 在timsTOF Pro系统上,通过捕集离子淌度(TIMS)和平行累积连续碎裂(PASEF)技术,获得了5种生物体蛋白质组全裂解液的100多万个CCS数据。

  * 使用MaxQuant处理360多个LC-TIMS-MS/MS数据得到的大规模CCS数据。

  * 通过CCS值比对,在重复测量的347885个肽段CCS值中,变异系数中值(CV)为0.4%,这表明了TIMS的CCS值在长时间、不同仪器间的运行中具有非常好的重现性。

  * CCS数据的精确度(CV<1%)足以建立一个深度递归神经网络。该网络仅基于蛋白质基因组肽段序列便可以准确预测ccs值(r>0.99)。

  * 利用深度学习功能,可以预测任何肽段和生物体的CCS值,为先进4D-蛋白质组TIMS/PASEF工作流程奠定基础,实现对肽段新一维度CCS信息的充分利用。

  这篇文章将timsTOF Pro上测得的CCS值作为肽段离子固有的重要特征,用于提高4D-鸟枪法蛋白质组学分析中肽段和蛋白质鉴定的可信度。由于基于质谱的蛋白质组学非常依赖获得谱图与蛋白质序列数据库的匹配准确度,因此准确的CCS值有利于缩窄候选列表。这对于在复杂基质,例如在血浆蛋白质组学、肽组学、免疫肽组学或宏蛋白质组学等需要准确测量低肽段信号的高灵敏度蛋白质组学来说至关重要。

图1:timsTOF Pro上测得CCS值的精确度、准确度与可利用度。

  文章第一作者Florian Meier博士现在是德国耶拿大学医院功能蛋白质组学的助理教授,他说:“通过timsTOF Pro获得的肽段CCS值的规模和精确度足以仅透过肽段序列去训练深度学习模型并准确地预测其CCS值。肽段中包含的氨基酸与其CCS值之间关联性,使其具有极大的潜力可以提高蛋白质鉴定的可信度。由于肽段的CCS值完全由其线性氨基酸序列决定,因此它们具有高度可预测性.通过模型的深度学习,人们可以准确预测此前未检测肽段的CCS值。我们从5种生物体的蛋白质裂解液中获得了超过200万个CCS值,其中包括大约50万个独特性肽段,成为迄今为止最全面的CCS数据集。”

图2:肽段CCS值预测的深度学习流程。

  Matthias Mann教授补充说:“源代码是公开可用的,这样可以加快人类肽库的建立和预测模型的进一步开发。概念上,我们的CCS模型可以使dia-PASEF减少数据库建立的工作量,从而使工作更快速、成本更低。此外,预测的CCS值能利用诸如Pan Human Library等的文库 (PanHuman Library包含10,000多种人类蛋白质)来进行靶向蛋白质组学分析。

图3:使用TIMS和PASEF进行的大规模CCS测量。

  a)通过消化,预分级,和色谱分离的全细胞蛋白质组的提取流程。以PASEF模式运行的TIMS-QTOF质谱仪。b)本研究中按生物体分类的CCS数据。c)肽段C末端氨基酸的频率。d)肽段N末端氨基酸的频率。e) 559,979个独特数据点的分布,包括修改序列和电荷分布,在CCS与m/z二维图按电荷状态进行颜色编码,CCS为纵坐标,m/z为横坐标,m/z和CCS的密度分布在顶部和右轴上。此数据为源数据文件提供。

  Fabian Theis教授表示:“由于深度学习,特别是使用递归神经网络需要大量样本来进行预测。因此当Matthias跟我商量共同进行相关研究时,我感到非常高兴,我们可以仅仅基于肽段的序列就能够预测肽段的生化特性。我个人很喜欢的一点是,我们可以对过去从未检测的肽段进行CCS值的预测与估算。”

  布鲁克蛋白质组学副总裁Gary Kruppa博士评论说:“这项研究展示了TIMS-PASEF方法中准确的CCS值用于无偏差、深度4D-蛋白质组学的巨大潜力。timsTOF平台的稳定性、高通量和超高灵敏度等特点,非常适合转化蛋白质组学研究。大规模肽段的CCS值在蛋白质鉴定和定量可信度方面提供了重要优势。此外,CCS值提高鉴定可信度的益处同样也适用于代谢组学,脂质组学和糖组学等多组学工作流程。对于我们布鲁克快速增长的timsTOF用户群来说,这是令人激动的时刻。”

  参考资料

  1. Meier, F., Köhler, N.D.,Brunner, AD. et al. Deep learning the collisional cross sections of the peptideuniverse from a million experimental values. Nat Commun 12, 1185 (2021). https://doi.org/10.1038/s41467-021-21352-8

相关文章

药典委:关于蛋白质组学分析方法及应用指导原则草案的公示

国家药典委拟制定《中国药典》蛋白质组学分析方法及应用指导原则。为确保标准的科学性、合理性和适用性,现将拟制定的蛋白质组学分析方法及应用指导原则公示征求社会各界意见(详见附件)。公示期自发布之日起三个月......

超7亿美元!靠化学蛋白质组学平台,BridGene两年狂揽12亿美元

1月4日,BridGeneBiosciences宣布与Galapagos签订总额超过7亿美元的战略合作与许可协议。根据合作协议,BridGene将利用其化学蛋白质组学平台IMTAC(IsobaricM......

中国科学院团队成功绘制新冠首批死亡患者高分辨率空间蛋白质图谱

不久前,中国科学院武汉病毒研究所石正丽团队与南方科技大学田瑞军团队以及华中科技大学同济医学院周亦武团队在BioRxiv发布创新性研究Deepspatialproteomicexplorationofs......

中国科研团队摘获CCS2023杰出论文奖

近日,第三十届ACM计算机与通信安全会议(CCS)在丹麦哥本哈根举行。处理器芯片全国重点实验室研究员武成岗团队的最新成果“PANIC:面向ARM平台的PAN辅助进程内内存隔离机制”(PANIC:PAN......

中国科研团队摘获CCS2023杰出论文奖

近日,第三十届ACM计算机与通信安全会议(CCS)在丹麦哥本哈根举行。处理器芯片全国重点实验室研究员武成岗团队的最新成果“PANIC:面向ARM平台的PAN辅助进程内内存隔离机制”(PANIC:PAN......

中国科研团队摘获CCS2023杰出论文奖

近日,第三十届ACM计算机与通信安全会议(CCS)在丹麦哥本哈根举行。处理器芯片全国重点实验室研究员武成岗团队的最新成果“PANIC:面向ARM平台的PAN辅助进程内内存隔离机制”(PANIC:PAN......

植物磷酸化蛋白质组学技术研发方面获进展

蛋白质磷酸化是在激酶催化下将磷酸基团转移到底物蛋白质上的可逆过程,是能够调控蛋白质结构与功能且参与细胞内信号转导的重要翻译后修饰,在植物的生长、发育、环境适应以及作物的产量和品质调控中发挥着重要作用。......

最新研究进展!复旦中山团队揭示血清蛋白质与代谢组的奥秘

新型冠状病毒感染自爆发以来,已成为目前较为严重的流行病之一。血清蛋白质/代谢物是监测新冠-宿主间炎症反应及免疫应答的灵敏靶标,但其在奥密克戎毒株轻症感染人群中,尤其是在接种疫苗的患者体内特征性变化仍不......

Lancet子刊|新冠追踪的蛋白质组学研究新发现!

部分民众总感觉“阳康”后一直有不舒服的现象,在近期中国科学家发表的一项重磅研究中得到了分子层面的科学论证:新冠病毒会对部分感染者产生长期的不良影响,涉及肺、肾、脑、运动能力、血糖、疲劳、嗅/味觉异常、......

北京大学第一医院花费780万成功采购离子淌度4D组学质谱系统

2023年11月1日,北京大学第一医院发布《北京大学第一医院科研平台建设项目离子淌度4D组学质谱系统中标公告》,7766000.00元中标离子淌度4D组学质谱系统。详细信息如下:一、项目编号:B070......