将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱分析测试百科网wiki版

发布时间：2023-08-23 14:18 原文链接：将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱

代谢组学研究已经确定了介导细胞信号传导、竞争和疾病病理学的小分子，部分原因是大规模社区努力测量数千种代谢物标准品的串联质谱。然而，在临床样品中观察到的大多数光谱不能与已知结构明确匹配。

令人惊讶的是，用于阐明小分子结构的深度学习方法无法与经典统计方法相媲美，科学家认为这可能是由于缺乏纳入当前神经网络架构的领域内知识。

麻省理工学院（MIT）的研究团队介绍了一种用于非目标代谢组学的神经网络驱动的工作流程，即使用光谱 Transformer 进行代谢物推断（Metabolite Inference with Spectrum Transformers，MIST），以用化学结构注释串联质谱峰。与现有方法不同，MIST 通过用化学式表示对峰进行编码、隐式特征化成对中性损失并训练网络以额外预测子结构片段，将领域洞察融入其架构中。

与标准神经结构和最先进的内核方法相比，MIST 在 70% 以上代谢物标准的指纹预测任务中表现良好，检索 66% 的代谢物具有同等或更高的准确率，其中 29% 的准确率更高。

该研究以「Annotating metabolite mass spectra with domain-inspired chemical formula transformers」为题，于 2023 年 8 月 17 日发布在《Nature Machine Intelligence》。

非靶向代谢组学是增进科学家对细胞和环境生物化学理解的重要工具。液相色谱串联质谱（LC-MS/MS）是进行此类分析以识别新的且通常重要的代谢物的主要实验方法：分子通过柱色谱分离，电离并根据质量进行测量（MS1），并通过更高能量碰撞（MS2）进行碎片化，产生一组具有不同质荷比的带电片段，以峰谱的形式进行测量。

然而，这些实验的分析存在瓶颈，因为无法用产生这些碎片的分子的化学结构准确地注释这些观察到的碎片光谱，多达 98% 的碎片光谱尚未注释。在许多情况下，光谱与已知的标准光谱并不十分相似，必须使用不完善的计算工具来推断未知分子的性质。改进这个单一的推理步骤有机会增加在所有常规非目标代谢组学实验中收集的信息。

尽管深度学习最近取得的突破已经「神经化」了邻近的蛋白质结构预测领域，但代谢组学却并非如此。先进的计算代谢组学注释工具仍然依赖于手工设计的启发式方法和核函数（即用于比较质谱特性的定量函数）。

人们已经做出了一些努力来利用深度学习来改进代谢组分析。光谱的表示学习（例如 Spec2Vec、MS2DeepScore 和正弦嵌入）可用于学习光谱之间更有意义的距离，以促进分子网络。前向模型结合了前馈网络和图神经网络，可以直接从分子结构预测碎片谱。

在反方向上，MSGenie、Spec2Mol 和 MetFID 直接尝试从质谱生成指纹或 SMILES 字符串，但在使用等效数据进行训练时，没有任何方法优于 CSI:FingerID。深度内核学习也被用来改进 CSI:FingerID，但这种方法仍然从根本上依赖于通过手工制作的输入特征数十年的专业知识，并且无法在独立研究中对新数据进行编辑、重新训练或微调。

研究人员假设这些神经网络方法总体上无法超越其统计对应方法，因为它们缺乏架构中的领域知识。通过将峰值质量视为离散的分箱值，神经表示不太能够在峰值之间和跨示例进行概括。

在最新的研究中，麻省理工学院的研究团队使用 MIST 进行代谢物推断，这是一种基于网络的方法。MIST 没有像之前的神经模型那样将网络应用于分箱光谱，而是首先将光谱表示为所有峰的化学式集。

该团队从质谱域引入归纳偏差：他们隐式地表征片段之间的中性损失关系，同时预测每个光谱中代谢物及其片段的结构，使用计算机前向增强为模型提供更多训练数据，并引入一种新颖的「展开」架构来逐步提高指纹预测的分辨率。通过使用对比表示学习进行微调，可以进一步增强 MIST 使用已知生物分子大型虚拟库中的结构注释光谱的能力。令人兴奋的是，它学习的潜在嵌入（神经架构的副产物）也可以用于对未注释的光谱进行聚类，其距离比现有方法更能代表分子距离。

研究人员演示了如何使用 MIST 来预测分子结构指纹，并通过对比学习来学习有意义的连续表示或潜在空间。对于指纹预测任务，MIST 实现了优于现有方法的准确性。对于结构阐明（如检索）和将光谱组织到分子网络中的任务，MIST 学习的对比嵌入证明非常有效。这两项任务对于临床微生物组数据的前瞻性注释都是有效的，正如对假定的和差异丰度的二肽分子和生物碱化合物的注释示例所证明的那样。

质谱模型开发的一个关键困难是缺乏良好的标准化基准，而这对于机器学习任务的进展至关重要。CASMI 竞赛同时评估化学式注释和检索注释，这也是用于检索的数据库的功能，使得这种比较难以完全解卷积；根据设计，相关训练数据不受限制或提供。

为了促进该领域的未来进展，研究人员在一小部分易于处理的公共 GNPS 数据子集上提供了完全基准化的模型消融，用于注释和指纹预测。这些标准将使跨研究的模型之间能够更好地进行比较。

这项工作也存在局限性。MIST 高度依赖于 MS1 分配的正确化学式。更高精度的公式注释和用于此任务的新方法将与 MIST 产生协同作用。MIST 目前仅针对带注释的光谱进行训练，而不针对未注释的光谱进行训练。未来的工作将探索预训练等策略如何进一步提高结构解析模型的质量。

MIST 提供了一种竞争性的神经解决方案，可将质谱和预测的化学式转换为分子指纹或潜在空间嵌入，以进行结构阐明。正如蛋白质结构预测几乎完全由神经网络模型驱动一样，研究人员估计小分子结构阐明管道也会发生类似的转变。

MIST地址：https://github.com/samgoldman97/mist

论文链接：https://www.nature.com/articles/s42256-023-00708-3

将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱

其他网友还关注过

将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱

将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱

将领域知识引入神经网络，MIT团队用光谱Transformer研究非靶向代谢组学图谱

中药基础物质、代谢及代谢组学研究方案

研究发现提高鲜食玉米耐热性基因

突破国外封锁！我国自主研发的核磁共振仪器开始量产

大咖面对面丨代谢组学前景广阔质谱构建核心平台

强强联手，合作双赢“全景和空间代谢组学新技术”研讨会

川大团队揭示神经元进化缺失的一环，填补神经元空白

Nature：神经退变和脑衰老过程中神经元DNA修复新机制