发布时间:2022-04-20 18:40 原文链接: 蛋白质组学新进展:关键技术和人工智能

蛋白质组学是关于蛋白质组的研究,这是一个不断发展的领域。它提供了对支撑细胞、组织和整个生物体内生物状态的分子过程的全面理解。

科学研究的各个领域,包括人类、动物和植物生物学、个性化医学和法医学,都在快速发展的过程中,这主要归功于蛋白质组学技术、数据处理能力和数据共享方面的进步。在这篇文章中,我们将探讨蛋白质组学的一些最新进展及其潜在的广泛影响。

1、关键技术发展

1.1、质谱蛋白组学

蛋白质组学研究中采用了多种分析技术,可大致分为低通量和高通量。几十年来,质谱(MS)一直是最广泛使用的高通量分析的“金标准”技术。现在有无数基于质谱的蛋白质组学工作流程,具有独特的样品制备技术、质量分析器和数据软件管道的组合。历史上,基于MS的蛋白质组学面临的一个关键问题是仪器的灵敏度和特异性。

近年来,质谱的情况发生了相当大的变化;供应商推出了具有速度、灵敏度和特异性能力的质谱仪器,这在以前是闻所未闻的。

“我们看到质谱仪器的灵敏度有了巨大的飞跃,液相色谱与质谱(LC-MS)的联用也有了进展。不久前,蛋白质组学研究只能描述几百种最丰富的蛋白质,今天我们现在可以在相对快速的实验中看到成千上万的蛋白质。”,英国剑桥大学Babraham研究所Rahul Samant小组的博士后研究科学家Harvey Johnston博士说。

最终,科学家现在可以比以前更深入地挖掘蛋白质组。

Matthias Mann教授是诺和诺德基金会蛋白质研究中心蛋白质组学项目的研究主任和小组负责人,慕尼黑马克斯-普朗克生物化学研究所的主任,也是世界上被引用次数最多的科学家之一。

Matthias Mann(左),Ruedi Aebersold(右)

当被要求指出MS蛋白质组学的一个特别突破时,Mann说:“肯定是Aebersold实验室开创的向数据独立采集(DIA)的转变。”

他的想法得到了Johnston的赞同,他在他的清单中选择了DIA,也被称为所有理论质谱的顺序窗口采集(SWATH-MS),对该领域有重大意义的进展。

与它的姐妹技术,数据依赖分析(DDA)不同,DIA在第二个周期(MS2)中对串联质谱(MS1)的第一个周期中产生的所有前体离子进行分割,提供无偏见的分析、更大的蛋白质组覆盖范围和更高的可重复性。

近年来,基于DIA的MS在蛋白质组学研究中的应用,特别是在肿瘤学领域,持续增长。2019年,42项已发表的研究聚焦于几种不同的癌症类型,并利用各种生物材料,采用DIA-MS进行蛋白质组学分析。DIA也在神经科学蛋白质组学领域掀起波澜,它因发现与阿尔茨海默病有关的新信息而受到称赞。

正在不断探索加速基于DIA的MS的方法,被称为“ultra-fast”蛋白质组学,最近的一项研究确认了43种并确定了11种表明COVID-19严重性的新型血浆蛋白质组生物标志物。

据Johnston说,DIA-MS正在帮助蛋白质组学寻求达到严格的标准化状态。“把一个相同的样品送到多个蛋白质组学实验室,有时你会收到相当不同的结果,因为有多种工作流程、仪器、分析工具和设置等等。然而,随着现代方法,特别是DIA,这种情况正在改善。”

1.2、基于适配体的蛋白质组学及其他

虽然质谱多年来一直主导着蛋白质组学的研究领域,但最近出现了“第二代”蛋白质组学平台,它们利用基于适配体的技术,而不是抗体。在讨论此类技术时,约翰霍普金斯大学医学院的研究员Benjamin Orsburn博士写道:“尽管几十年来LC-MS一直垄断着蛋白质组学,但这显然不再是事实。”

Aptamers是短的单链(ss)DNA分子,能够形成独特的确认,使它们能够有选择地与生物目标(如蛋白质)结合。该技术提供了特异性和选择性,在生物标记物发现等领域是有利的,因为在这些领域,MS蛋白质组学受到其动态范围的限制。

“这是经典的MS生物标记物发现领域的最大挑战,血液中许多潜在的生物标记物的浓度可能远远低于白蛋白的万亿分之一。”Johnston说,“MS会尝试分析每一点干草,看看是否有针,另一方面,使用抗体或适配体可以像磁铁一样发挥作用。如果没有有效的方法,白蛋白和其他高含量的蛋白质就会压倒MS分析。”

最近利用基于适配体的蛋白质组学的研究实例包括鉴定非酒精性脂肪肝(NAFLD)中纤维化(肝脏的瘢痕)的基于蛋白质的特征,NAFLD是全球肝病的最大原因之一。Corey等人在一个减肥和非酒精性脂肪肝的队列中进行了多重分析,以确定一个八种蛋白质组合,它将非酒精性脂肪肝的各个阶段区分开来。

在著名的弗雷明汉心脏研究中,该研究包括了1895名参与女性,利用了基于适配体的蛋白质组学,以确定心脏重塑和心力衰竭事件的生物标志物。发现17种蛋白质与超声心动图特征有关,6种蛋白质与心力衰竭事件有关。利用遗传变异体数据的进一步分析进一步支持了这些发现。

Orsburn写道:“与LC-MS技术相比,使用aptamer技术似乎较少受到细胞中绝对蛋白质拷贝数的影响。”

然而,在所使用的组合能够识别更高比例的蛋白质组之前,MS蛋白质组学可能仍然是一种首选方法,而基于诱导剂的技术则作为一种补充方法来使用。最近提出的一种理想的蛋白质测序平台,采用条码DNA适配体来识别肽的末端氨基酸,连接到下一代测序芯片上,可能会提供一种折中的方法。然而,Johnston说:"如果想要实现该技术的全部潜力,还需要很长的时间。”

2、人工智能“推动”蛋白质组学的发展

可以说,近年来蛋白质组学的最大进步之一是基于人工智能(AI)的方法提供的“助力”。机器学习、深度学习和其他人工智能方法正被应用于蛋白质组学分析管道的各个阶段。

2.1、人工智能和药物发现蛋白组学

人工智能(AI)在蛋白质组学中的应用已经在重塑药物发现领域。了解特定蛋白质的相互作用方式和原因,对于推进细胞生物学、开发新药以及确定药物如何引起治疗和不良反应来说是必不可少的。

然而,这不是一件容易的事。麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的博士后研究员Octavian-Eugen Ganea说:“为了了解相互作用的蛋白质如何附着在一起,人类或计算机必须尝试所有可能的附着组合,以便找到最合理的组合…这是一个非常耗时的过程。”

当研究人员想要捕捉可能存在于一大批蛋白质,如人类蛋白质组,中的先前未识别的相互作用时,就会产生进一步的复杂性。Ganea将此比喻为拼凑一个大型3D拼图。基于人工智能的方法,特别是深度学习,提供了一个解决方案。它们可以加速拼凑三维拼图的过程,这也是Ganea研究的重点。

什么是深度学习?作为机器学习的一个子集,深度学习包括模拟大脑行为的神经网络。这些神经网络能够从大量的数据中 "学习"。

目前有几种商业化的蛋白质对接方法,但它们依赖于候选取样、模板和预先计算的网格的特定任务特征,所有这些都会增加计算时间。

Ganea和麻省理工学院的同事最近发表了一个新的深度学习模型EquiDock。它采用两种蛋白质的三维结构,并直接确定哪些区域有可能发生相互作用。

EquiDock学习从一大批约41000个蛋白质结构中捕捉复杂的对接模式,使用一个具有数千个参数的几何约束模型,动态地自动调整,直到解决任务。一旦经过训练,该模型与其他四个现有的对接软件进行了比较。它能够在一到五秒内预测出最终的蛋白质复合物;这一速度比现有的软件快80 ~ 500倍。

“快速计算扫描药物副作用是一个应用实例。”Ganea说,“为了大大减少天文数字般的搜索空间,这是需要的,否则对于我们目前所有的实验能力(即使是世界范围内的汇总)来说是不可行的。”

他强调说,将EquiDock与其他蛋白质结构预测模型相结合,将进一步帮助药物设计、蛋白质工程、抗体生成和作用机制研究,以及其他应用。Ganea说,这是一个令人兴奋的前景,也是寻找更好的疾病治疗方法的一个“关键需求”。

2.2、优化基于MS的蛋白质组学

基于人工智能的方法也在帮助研究人员从他们的数据中获得更多的洞察力。人工智能正在彻底改变我们能从数据中获得的东西。

MS实验需要数据库搜索或质谱库匹配来识别蛋白质。这使得某些蛋白质有机会被错误地识别或遗漏,而且很耗时。这一直是DIA MS的一个特殊障碍,它依赖于通过DDA分析生成质谱库。现在已经建立了各种深度学习方法,能够预测谱图和肽的特性。

例子包括但不限于,rosit、DeepMass和最近的DeepDIA。根据预测的谱库,优化DIA方法,将使蛋白质组学领域朝着这个方法的方向发展。

2.3、在非MS蛋白质组学中的应用

在基于MS的方法之外,人工智能正在分析蛋白质运动的编排方面有所进展,这是理解以纠结、结块的蛋白质为特征的病症(如阿尔茨海默氏病)不可或缺的研究领域。

这个领域采用的关键方法,显微镜和福斯特共振能量转移(FRET)产生了大量的数据集,需要时间和专业知识来分析。为了克服这种数据困境,诺和诺德基金会蛋白质研究中心的研究人员在Nikos Hatzakis教授的领导下,最近创建了DeepFRET。

DeepFRET是一种机器学习算法,可以识别蛋白质运动模式,在几秒钟内对数据集进行分类,而通常需要几天的工作。

蛋白质组学中人工智能的未来将需要各团体在人工智能平台必须坚持的标准、数据报告和共享方面的同步性。官方建议,如最近发布的关于在蛋白质组学和代谢组学中进行和报告机器学习的数据、优化、模型、评估(DOME)建议,将可能有助于塑造该领域的未来。

3、更广泛的应用

蛋白质组学还有更广泛的应用,也受益于之前讨论的技术进步,比如法医学。

二十世纪后半叶发生的“DNA革命”极大地改变了这个领域。现在,蛋白质组学看起来也准备产生类似的影响。总体而言,由于技术、法律、财政和文化因素,目前蛋白质组学对法医学的影响有限。然而,在刑事调查和起诉中采用和纳入新方法是一种基本的驱动力。蛋白质组学有内在的优势,它比DNA更稳定,而且像DNA一样,可以包含识别信息。

在核酸已经降解的情况下,蛋白质组学可以用来识别体液、性别、种族群体,并利用肌肉、骨骼和分解液样本来估计死亡的大致时间。

尽管实施起来是一个挑战,但在未来,蛋白质组学有可能大大改变证据的处理和分析方式。然而,在短期内,该领域以DNA为中心的方面确保了蛋白质组学将被用于DNA难以提供清晰、容易辩护的答案的领域。"

4、挑战和未来展望

4.1、蛋白质组学的普及

可以说,蛋白质组学领域面临的最大限制是其复杂性。蛋白质组学工作流程包括复杂的技术和软件,需要熟练的人员来操作。虽然在灵敏度和速度方面取得了令人难以置信的进步,但它们也是有代价的。

严格执行的、深度覆盖的质谱实验,特别是对复杂的生物样本,需要大量的质谱时间。因此,在成本、覆盖率和样本数量之间不断进行权衡。

这是一个限制蛋白质组学更广泛应用的问题。在具体讨论法医学时,这些因素结合起来普遍限制了创新,有前途的新兴技术,包括蛋白质组学,都没有得到充分利用。

在过去十年中,要求蛋白质组学普及的呼声越来越高。为了提高可及性和可持续性,已经出现了一些倡议。

其中一个例子是欧洲蛋白质组学基础设施联盟提供使用权(EPIC-XS)的联盟。该倡议联合了一些欧洲领先的实验室和科学家,将各种技术、专业知识和数据共享集中起来。

资源并不仅限于基于MS的蛋白质组学。KTH接入点的细胞分析设施也提供了基于抗体的成像方面的专业知识。乌特勒支大学的项目经理Martina O'Flaherty说:“这种技术库确保EPIC-XS平台能够很好地考虑来自不同的蛋白质组学领域的用户应用。”

4.2、通往临床之路

在蛋白质组学被确立为临床的主流之前,有几个挑战需要克服,这些挑战取决于正在讨论的临床蛋白质组学的特定子应用。

基于质谱的蛋白质组学需要变得更加强大和方便,特别是如果它要在临床上大规模应用的话。

一些小组已经转向高流速色谱系统来实现这一点,但这并不理想,因为灵敏度受到影响。在分析技术提高了深入挖掘蛋白质组的能力的同时,产生的数据量也在增长,为临床蛋白质组学引入了一个额外的瓶颈,即数据处理和从这样大的数据集中制定生物和临床假设的形式。

此外,为了全面了解人类健康和疾病,蛋白质组学数据必须与其他“全能”对应物,如代谢组学、基因组学和转录组学相结合。

随着蛋白质组学走向临床,还必须考虑伦理方面的问题。蛋白质组学分析可以提供促成测试的原始诊断查询之外的信息。临床医生如何处理这些数据?专家强调,虽然可以从临床基因组学的实施中吸取教训,但这两个领域是不同的,在制定监管框架和指南时必须承认这一点。

相关文章

何懿团队获人体蛋白质组导航国际大科学计划资助

近日,人体蛋白质组导航国际大科学计划“种子项目”名单公布。记者获悉,南方医科大学第三附属医院风湿免疫科副主任医师何懿团队申报的项目——类风湿关节炎队列的“蛋白质组学驱动的精准医学”研究获得资助。据了解......

赛默飞LDT案例:靶向PRM蛋白定量方法助力新冠病毒快速检测

XpresysLung作为IDH公司的诊断产品,给肺部结节患者带来福音,该方案利用血液蛋白质组学技术针对组学水平下挖掘出来的潜在标志物进行进一步筛选,并利用算法在实际样本中学习,最终挖掘出13个bio......

蛋白质组学研究可投哪些期刊?

    蛋白质作为功能的直接行使者,已经被科研工作这广泛应用于不同领域中,目前蛋白组学有很多优秀的科研成果,在各个领域及期刊上发表,其中也不乏CNS在内的顶级期......

开发出精氨酸二甲基化蛋白质组分析新方法

近日,中科院大连化学物理研究所研究员叶明亮团队和上海有机化学研究所生物与化学交叉研究中心研究员刘聪团队合作,将硼酸化学引入到甲基化蛋白质组分析方法中,并巧妙利用了精氨酸残基上不同修饰基团的位阻差异,实......

我所开发出精氨酸二甲基化蛋白质组分析新方法

近日,我所生物分离分析新材料与新技术研究组(1809组)叶明亮研究员团队和上海有机化学研究所生物与化学交叉研究中心刘聪研究员团队合作,将硼酸化学引入到甲基化蛋白质组分析方法中,并巧妙利用了精氨酸残基上......

Nature子刊实验室洞察:高通量蛋白质组学方法学综述

    在后基因组时代,蛋白质组学在生物医学研究中发挥着重要作用。2022年8月,Nature子刊《LaboratoryInvestigation》发表了一篇高......

蛋白质组学新进展:关键技术和人工智能

蛋白质组学是关于蛋白质组的研究,这是一个不断发展的领域。它提供了对支撑细胞、组织和整个生物体内生物状态的分子过程的全面理解。科学研究的各个领域,包括人类、动物和植物生物学、个性化医学和法医学,都在快速......

直接RNA测序、串联质谱法揭示新冠转录组和蛋白质组特征

此前,南开大学高山、阮吉寿等在中国预印本ChinaXiv网站发表论文,称新冠病毒S蛋白可能存在Furin蛋白酶切位点。近日,发表在预印本网站bioRxiv上的一篇论文使用直接RNA测序和串联质谱法表明......

5分钟了解蛋白质组学基础一览

1、什么是蛋白质组?    蛋白质是由称为氨基酸的构建块组成的生物分子。蛋白质是生命所必需的,具有结构、代谢、运输、免疫、信号和调节等许多作用[1]。 ......

单细胞蛋白质组学:让细胞个体研究更加精细

    细胞是生命活动的基本单元。对细胞的精确认知是理解细胞在生理和病理过程中功能的先决条件。    在组织、器官或个体......