小分子的鉴定是生命科学一项关键任务。质谱(mass spectrometry,MS)可用于分析化合物成分,高通量质谱技术能够从数十万个环境中收集小分子的串联质谱。然而,现有的方法是基于化学领域的知识,无法解释小分子质谱中的许多峰。

  卡内基梅隆大学和俄罗斯圣彼得堡国立大学的研究人员提出一种算法——MolDiscovery,提高了小分子识别的效率和准确性。该算法使用分子的质谱数据来预测未知物质的「身份」,在研究早期告诉科学家他们是偶然发现了新事物,还是仅仅重新发现了已知事物,可节省发现新的天然医药产品的时间和金钱。

  该研究于6月17日以「MolDiscovery: learning mass spectrometry fragmentation of small molecules」为题发表在《自然通讯》(Nature Communications)杂志上。

  MS 是一种电离化学物质并根据其质荷比(质量-电荷比)对其进行排序的分析技术。广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物。

  质谱图是小分子的指纹,可以用一组质量峰表示,但与指纹不同的是,没有庞大的数据库来匹配它们。尽管已经发现了数十万种天然分子,但科学家们无法获得他们的质谱数据。

  目前,已经出现了包含数万个小分子注释质谱的谱库,为开发基于机器学习的方法来提高计算机数据库搜索的灵敏度和特异性铺平了道路。然而,现有方法对于超小分子(< 400 Da)表现不佳,并且对于「重」小分子(>1000 Da)在计算上不足。

  现在,该研究团队提出一种质谱数据库搜索方法—— MolDiscovery,通过学习概率模型来将小分子与其质谱相匹配,大大提高了小分子识别的准确性,同时使搜索效率提高了一个数量级。

  从全球天然产物社会分子网络(GNPS;http://gnps.ucsd.edu) 搜索了 800 万个串联质谱后,MolDiscovery 以 0% 的错误发现率 (FDR) 鉴定了 3185 个独特的小分子,与现有方法相比,增加了 6 倍。在具有已知基因组的 GNPS 存储库的一个子集上,MolDiscovery 正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。

  MolDiscovery 框架

  MolDiscovery 框架主要分两个过程:训练过程和评分过程。具体步骤:

  从构建代谢物图和生成碎片图开始。对于后者,MolDiscovery 使用一种新的高效算法来查找代谢物图中的桥接和 2-cuts;

  MolDiscovery 继续学习匹配碎裂图和质谱的概率模型(图 1a-e);

  对小分子光谱对进行评分(图 1f-k),计算 FDR。

图1:MolDiscovery 框架。(来源:论文)

  基准测试

  MolDiscovery 与其他五种最先进的方法进行了比较,数据库搜索结果显示,MolDiscovery识别效果最好,平均可以正确识别测试 GNPS 和 MoNA 数据中的 43.3% 和 64.3% 的小分子。

图2:所有测试方法的最高 K = 1、3、5 和 10 准确度。(来源:论文)

  MolDiscovery 也是针对 DNP 搜索 GNPS 的最快和最节省内存的方法之一。在预处理阶段,MolDiscovery 比其中一种方法快 300 倍以上。

  还根据正确分子匹配的质量范围评估了运行时间。对于质量 >1000 Da 的分子光谱,相同质量范围内,MolDiscovery 平均只需 6 分钟和 24 秒。

  注释 8 倍多的光谱,识别出 6倍多的独特化合物

  从GNPS 搜索了 800 万个串联质谱,在严格的 0% FDR 水平下,MolDiscovery 注释了 8 倍多的光谱,并识别出比 Dereplicator+ (一种从MS中识别小分子的数据库搜索复制器)多6倍的独特化合物。

  MolDiscovery 搜索在 10 个线程上花费了 34 天,与单线程上的预测 329 天非常接近。值得注意的是,在搜索如此大规模的光谱数据集时,MolDiscovery 比其他方法要高效得多,只需要对分子数据库进行一次预处理,可以有效地搜索未来的光谱。

  节省新药研发时间、成本

  「科学家们浪费了大量时间来分离已知的分子。」研究团队成员 Hosein Mohimani 说。「早期检测分子是否已知,可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能用于新药开发的新型天然产品。」

  Mohimani 解释说:「例如,科学家检测出一种在海洋或土壤样本中有望成为潜在药物的分子后,可能需要一年或更长时间才能识别出这种分子,而不能保证该物质是新的。MolDiscovery 使用质谱测量和预测机器学习模型快速准确地识别分子,且无需依赖质谱数据库进行匹配。」

  该团队希望 MolDiscovery 将成为实验室发现新型天然产物的有用工具。MolDiscovery 可以与 Mohimani 实验室开发的机器学习平台 NRPminer 协同工作,帮助科学家分离天然产物。

相关文章

559万!山东省食品药品检验研究院省级药品检验能力建设仪器设备采购招标

山东省食品药品检验研究院省级药品检验能力建设仪器设备采购项目招标项目的潜在投标人应在济南市历下区解放路30-1号国华大厦A座13楼1315室获取招标文件,并于2023-09-2609:00:00(北京......

安捷伦助力可持续发展,绿色转型构建智能化实验室

绿色可持续发展是全球的战略方向,而随着市场估值体系的变化,建立更完整的可持续发展的绿色生态是目前当务之急,实验室的绿色可持续发展是需要尽快跟紧步伐,同时需要尽快建立行业转型发展的想法和路线。绿色经济包......

海口海关2023年10月政府采购意向公开,含4台质谱,6台色谱!

为便于供应商及时了解政府采购信息,根据《财政部关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)等有关规定,现将中华人民共和国海口海关2023年10月政府采购意向公开如下:序号采购单位采购......

高分辨,新起点|谱育科技QTOF即将新品亮相BCEIA 2023

第二十届北京分析测试学术报告会暨展览会(BCEIA2023)将于2023年9月6-8日在北京·中国国际展览中心(顺义馆)召开,作为中国分析与生化技术交流与展示的“峰会”,吸引着来自全球分析测试领域的专......

300万!国家海洋环境监测中心液相色谱质谱联用系统采购项目公开招标!

项目概况国家海洋环境监测中心液相色谱质谱联用系统采购项目招标项目的潜在投标人应在大连中远招标代理有限公司(大连市中山区七星街14号)获取招标文件,并于2023年09月22日09点30分(北京时间)前递......

前沿合作|2DLCMSQTOF鉴定乙酰半胱氨酸泡腾片的未知杂质

岛津中国创新中心与客户合作,采用岛津二维液相色谱串联四极杆飞行时间质谱(2DLCMS-QTOF)对乙酰半胱氨酸泡腾片的未知杂质进行结构鉴定。使用中心切割技术实现在线脱盐,获取高分辨质谱精确质量数预测杂......

科研盛宴!CASMS会议汇集全球华人质谱学者聚焦创新科技

美国时间2023年8月28日,第三届美国华人质谱学会(CASMS)会议在线上召开。作为该领域的独具影响力的盛会,CASMS为与会者提供了一个共享最新科研成果、交流思想和展示创新技术的平台,并得到了来自......

1090万!宁波市粮油质量检验监测中心能力提升项目中标包括多种检测仪器

一、合同编号:11N7369874692023201二、合同名称:宁波市粮油质量检验监测中心能力提升项目合同三、项目编号:NBITC-202370013G四、项目名称:宁波市粮油质量检验监测中心能力提......

近350万!广东省药品检验所实验室设备采购项目(第六批)中标公告

一、项目编号:GZZJ-ZG-2023486 二、项目名称:广东省药品检验所实验室设备采购项目(第六批)三、采购结果合同包1(广东省药品检验所实验室设备采购项目(第六批)):供应商名称供应商......

300余位专业人士齐聚天津共创质谱色谱新篇章

2023年8月26-27日,第25届天津市色谱质谱学术技术交流会及仪器展览会在天津召开。本次会议由天津市色谱研究会主办,来自天津市高校、科研院所和企事业单位的300余位从事色谱、质谱及相关领域的科研和......