最近,印度理工学院(位于德里)化学工程系进行了一项研究,使用液相色谱-质谱联用技术(LC–MS)来区分单克隆抗体(mAb)中的异变体(糖型),能够对其进行表征,揭示了在完整水平上可辨识的峰。

尽管商业软件中具备自动化峰检测功能,但为了达到最优的真实阳性率,通常需要利用视觉检查和手动调整。最近,印度理工学院(位于德里)化学工程系进行了一项研究,使用液相色谱-质谱联用技术(LC–MS)来区分单克隆抗体(mAb)中的异变体(糖型),能够对其进行表征,揭示了在完整水平上可辨识的峰。LCGC International采访了文章的通讯作者Anurag Rathore,谈论了他的部门的研究结果。

您的论文(1)展示了您和您的合著者进行的一项研究,该研究使用基于机器学习(ML)的方法进行峰检测,以促进商业许可生物类似药与创新产品之间的直接比较。与其他方法相比,使用ML进行此操作的优势是什么?

与传统的峰检测方法不同,传统方法需要有关样本的预先信息,如基线扭曲、相位误差和t1噪声,而基于ML的技术需要的先验知识最少。因此,减少了对手动调整和专家输入的依赖,使过程更加自动化和流线化。此外,基于ML的方法对噪声较不敏感,因此在信号与噪声问题的环境中特别有利,确保了可靠的峰检测,无需广泛的手动干预。

为什么峰检测方法很重要?

在治疗蛋白(mAbs)分析的背景下,峰检测方法之所以重要,原因如下:

它允许精确识别和量化样本中存在的不同分子物种,从而确保产品符合必要的质量标准。

通过准确识别峰,制造商可以监控并优化药物开发过程。这有助于识别制造过程中的任何偏差或不一致性,使能及时进行调整。

对于完整质量分析而言,这一点很重要,因为它用于验证治疗蛋白的分子质量,并确保蛋白质正确组装并且具有预期的分子质量。

在结构生物学方面,峰检测有助于分析蛋白质和其他生物分子的结构组分。这些信息对于理解这些分子在生物系统中的功能和相互作用至关重要。

您是否发现某些色谱或光谱技术通过使用基于ML的方法得到了优化?

是的,由于其复杂和高维数据特性,某些色谱和光谱技术可以通过使用基于ML的方法得到优化,这些特性使得使用传统方法处理具有挑战性。一些常见的例子包括高分辨率液相色谱-质谱联用技术(LC–MS)。研究表明,像卷积神经网络(CNN)和循环神经网络(RNN)这样的ML技术在更高的真实阳性率检测方面远远优于其他技术。

在进行峰检测分析时,ML是您的最佳选择吗?是否考虑过其他人工智能(AI)方法?

我们针对我们的问题应用了传统的峰检测算法,如部分最小二乘判别分析(PLS-DA)和局部加权回归(LWR)。它们的结果反映了在多个峰检测方面的准确度较低,并且需要大量的计算负载。我们还部署了人工神经网络来完成类似的峰检测任务,但它们无法从光谱数据中提取关系,导致了不准确的检测。我们开发的基于卷积神经网络的方法在准确性、计算效率和操作效率方面超越了传统算法以及基于人工神经网络的ML方法。

简要陈述这项研究的发现。

在初始阶段,使用LC–MS区分了mAb的异变体(糖型),揭示了在完整水平上的可辨识峰。为了全面识别在完整水平分析中的每个峰,采用了一种深度学习方法,利用了CNN。使用传统软件进行峰识别时,只有五个峰被检测到,阈值为0.5。CNN模型在同一条件下识别出七个主要峰,许多重叠峰在主峰内,表明了优越的检测能力。CNN模型在0.5阈值的真实阳性率为0.9,概率AUC值为0.9949,结果良好。结果还与一些传统算法如PLS-DA和LWR的峰检测进行了比较,CNN模型在这两个方面都表现出更高的计算效率。

您的发现是否与您的假设相符?

是的,正如所假设的,利用机器学习,特别是CNNs,会提高峰检测的准确性和真实阳性率,相较于传统方法。使用传统软件进行峰识别时,只有五个峰被检测到,阈值为0.5。CNN模型在同一条件下识别出七个主要峰,许多重叠峰在主峰内,表明了优越的检测能力。

有没有什么特别出乎意料的地方?

CNN模型能够准确检测多个重叠峰而不受到噪声影响的能力是出乎意料的。

在您的工作中是否遇到了任何限制或挑战

本研究的一些限制包括:

如果没有进一步验证,该模型可能不会很好地推广到其他数据集或不同的实验条件。

尽管准确度高,但仍然需要专家验证和解释检测到的峰以确认发现。

CNN可能复杂且难以解释,使得理解特定峰识别背后的原理变得具有挑战性。

在这种类型的分析中,您能推荐哪些最佳实践,无论是仪器参数还是数据分析?

我们推荐的有效数据分析的最佳实践包括:

通过尝试不同的滤波器大小、学习率和批量大小来调整超参数,以获得最佳结果。

为了在计算速度和准确性之间获得最佳平衡,相应地调整CNN架构的层数。

在必要时实施dropout层和正则化技术以避免过拟合。

对于仪器参数,应该关注:

使用熟练的LC系统和柱子有效分离和估算mAb的完整质量。在我们的研究中,我们使用了Agilent 1260 Infinity Bio-inert Quaternary LC系统。

在分析前校准MS色谱图的正离子模式。

将毛细管气体温及其电压以及碎片器的电压设置在最佳水平。

应用精确算法在可用软件中,如Agilent MassHunter定性分析和BioConfirm,用于解卷积MS色谱图。

这项研究的下一步是什么,您是否计划参与改进这项技术?

我们可以探索将CNN与其他AI技术(如分类器)结合使用,以进一步增强检测能力和鲁棒性。开发减少计算负载的策略,如并行处理或将数据集分成较小的区域,使方法更高效和可扩展。

您对AI和ML在色谱和光谱数据分析中的看法是什么?

AI和机器学习可以显著提高色谱和光谱分析结果的可靠性和深度,通过提高准确性、效率和可扩展性。由色谱和光谱技术产生的高维复杂数据集可以通过ML算法轻松处理,提取可能被传统方法遗漏的有意义的特征和模式。

Anurag S. Rathore is a professor in the Department of Chemical Engineering at the Indian Institute of Technology in Delhi, India.


参考文献

1. Nikita, S.; Bhattacharya, S.; Manocha, K.; Rathore, A. S. Deep Learning Framework for Peak Detection at the Intact Level of Therapeutic Proteins. J. Sep. Sci. 2024, 47 (11),139888. DOI: 10.1002/jssc.202400051

相关文章

科学家发现一种能够逆转大脑衰老的蛋白质

衰老对海马体(大脑中负责学习和记忆的区域)的影响尤为严重。如今,旧金山加州大学的研究人员发现了一种在该衰退过程中起核心作用的蛋白质。这项研究成果于8月19日发表在《自然—衰老》期刊上。科学家们确认FT......

科研人员开发出基于深度学习的小麦旗叶夹角测量新方法

旗叶夹角是决定小麦群体大小、群体光能拦截效率以及通风透光性能的关键农艺性状,是小麦株型的重要构成因素之一。旗叶夹角因长期依赖人工测量,导致效率低、精度差、主观性强,难以满足大规模精准育种和栽培管理的需......

2025年全国糖生物学会议启幕甜蜜之约,共探前沿

2025年8月9日,备受瞩目的2025年全国糖生物学会议暨第六届全国糖化学会议在四川成都正式开幕。本届盛会由中国生物化学与分子生物学会糖复合物专业分会、中国化学会糖化学专业委员会、安特百科(北京)技术......

蛋白质生成卡顿引发细胞老化

德国莱布尼茨老龄研究所团队在一种名为鳉鱼的淡水鱼大脑中发现,随着年龄增长,细胞内合成蛋白质的“工厂”——核糖体,在制造某一类关键蛋白质时出现卡顿,从而引发一连串恶性循环,导致细胞功能不断衰退。这或许是......

两步突破难题!湖大岳磊团队HydroWash新策略实现DESIMSI蛋白质成像双重提升

近日,湖南大学生物学院生物与化学质谱实验室岳磊教授团队在蛋白质质谱成像(MSI)领域取得重要突破。团队创新性地提出了组织蛋白质成像新策略:HydroWash。该方法创新性地将组织洗涤与明胶水凝胶调控相......

重磅!因美纳将收购SomaLogic,3.5亿美元现金!

将高度互补的蛋白质组学技术专长与因美纳行业领先的产品创新和全球市场影响力相结合为因美纳在广阔且持续增长的市场中实现增长奠定基础自2021年末以来,因美纳与SomaLogic即在蛋白质组学联合开发方面开......

阿里云生物基础大模型登上Nature子刊可挖掘核酸、蛋白质之间的内在联系

6月19日消息,国际顶级期刊《NatureMachineIntelligence》发表了阿里云AIforScience的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大......

计算成像可解释性深度学习重建方法研究取得进展

傅里叶叠层成像是一种新兴的计算成像技术,其成像的正向模型包括光瞳函数的低通滤波、光瞳在频域内的扫描采样、傅里叶变换和复杂的成像噪声污染。传统基于深度神经网络学习(如卷积神经网络)方法在远距离场景下,环......

基于深度学习的时间序列预测研究获进展

时间序列预测是大规模数据无损压缩和极端天气预报等领域的核心技术。随着应用场景多样化和数据复杂性提升,现有模型在异构数据的统一表达、长序列结构依赖建模、极端天气波动捕捉等方面存在挑战。中国科学院计算机网......

植物减数分裂过程中染色体精准分离调控获揭示

近日,华南农业大学教授王应祥团队在国家自然科学基金等项目的资助下,研究揭示了模式植物拟南芥泛素连接酶后期促进复合物/细胞周期体(APC/C)调控减数分裂染色体正确分离的分子机制。该研究丰富了蛋白质泛素......