发布时间:2021-06-09 14:50 原文链接: 人工智能助力药物研发,DDDC团队获冠军

  药物研发需要化学、生物、药理、毒理、临床等多学科的协作和多领域知识的综合运用。通常,一个药物的研发数据多达数千至数万页,而且这些海量的原始数据是以各种各样的形式散落在不同的地方,如文献、ZL、网页、图片、纸质印刷物等等。如何在海量研发原始数据中快速获取真正有参考价值的“有效数据”是药物研发人员所面临的巨大挑战。

  近日,由国际制药公司百时美施贵宝发起的“百时美施贵宝-分子翻译”(Bristol-Myers Squibb – Molecular Translation,https://www.kaggle.com/c/bms-molecular-translation)挑战比赛在著名数据科学竞赛平台Kaggle(见附注)落下帷幕。作为生物医药大数据挖掘领域里最具挑战性的问题之一,这场比赛得到了广泛关注,吸引了来自世界各地的上千名数据科学家,共计874支参赛队伍。经过三个多月的激烈角逐,最终来自中国科学院上海药物所药物发现与设计中心的研究生钟飞盛和熊嘉诚以及阿尔脉生物医药科技的刘小红博士组成的“SIMM DDDC”队伍,获得了此次大赛的第一名(见图1,奖金为5万美金),团队指导是来自中国科学院上海药物研究所的郑明月研究员和蒋华良院士。

  

  图1. Kaggle分子翻译挑战赛最终排名情况

  这次分子翻译挑战赛的目标是从图片中识别化学结构,并将其转换为文本形式的国际化合物标识(International Chemical Identifier, InChI)。在期刊和ZL等出版物中,有机化合物通常以化学分子结构式的图片形式来表示。因此,自动从此类图像文件中识别成化学结构,可以使化学家快速地获取有参考价值的“化学数据”。此外,分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据,可以与同样是文本形式描述的生物、药理、毒理、药代、甚至临床试验等其他数据和信息更方便的进行整合。比如,通过使用常规的自然语言处理技术就可以考虑ZL中某个分子结构所处的复杂语境,从而加深AI模型对该化学结构和性质的理解。

  在分子翻译挑战赛中,施贵宝构建了一个超过四百万的分子结构图像数据集,以3:2划分训练和测试集。按照Kaggle比赛规则,在计算得分的时候有Public Leaderboard和 Private Leaderboard之分,其中测试集中的25%的数据开放给参赛选手计算得分和排名,实时显示在 Public Leaderboard上。这个结果主要作用是为选手提供及时的反馈和动态展示比赛的进行情况,供选手参考调整比赛策略。测试集的剩余75%数据用于计算参赛选手提供模型的最终得分和排名,此即为 Private Leaderboard,在比赛结束后揭晓。比赛从2021年3月2日开始后不久,“SIMM DDDC”团队在Public Leaderboard一直稳定排在前三名左右,在进入5月份之后开始稳定占据榜首位置,并且在最终截止日(6月4日)以较大领先优势同时斩获Public 和Private Leaderboard的冠军。值得一提的是,这次比赛吸引了众多专家(Expert)、大师(Master)甚至宗师(Grandmaster)级别的资深Kaggle数据科学家,而最终夺冠的“SIMM DDDC”队伍中的三名选手都是第一次参加Kaggle比赛的新手玩家(Novice)。

  “分子翻译”本质是化学结构式图像识别(Optical Chemical Structure Recognition,OCSR)这一经典问题,距今已经有三十多年的研究历史。大多数 OCSR 技术遵循基于规则的方法,其中关键步骤是图片矢量化之后将线条和节点解释为键和原子,涉及到图像分割、图像细化、线条增强、光学字符识别 (OCR) ,以及最终重建的分子图形或其他表示(见图2)。近年来,也有一些基于深度学习的解决方案。例如采用编码器-解码器架构的MSE-DUDL模型,其中编码器使用卷积神经网络,将包含化学图的图像编码到固定长度的嵌入表示,然后解码器使用循环神经网络将它们解码成文本形式的分子结构。

  图2. 基于规则的化学结构式图像识别方法

  然而,真实世界中的化学结构图像不仅大小不同、格式各异,而且可能存在各种噪声。比如旧纸质文档扫描得到的电子文档普遍存在失真问题。如何处理诸如模糊、部分缺失、扭曲变形等问题是OCSR技术的难点。比如,图3是化学专家一般可以正确识别的分子结构,仅凭经验即可对缺失的化学键或原子进行补全。但这类问题对计算机模型通常非常具有挑战,模型一般很难凭空构建图片中不存在(缺失)的部分。

  

  图3. 存在噪声的分子结构图片

  下图以一张有噪声的分子结构图片为例,显示了一款化学反应式图像识别软件和本次比赛的冠军模型的结果对比:

  

  图4. 化学结构图片识别软件与本次分子翻译比赛的冠军模型的结果对比。a)一张带有噪声的分子结构图片;b)某款化学反应式图像识别软件的识别结果;c)本次比赛的冠军模型识别并重建的分子结构;d)冠军模型分子翻译输出InChI编码

  可以看出,现有的一些化学结构图片识别工具仍存在明显的局限性,尚达不到解决真实世界问题的技术需求。与此相比,此次冠军团队开发的模型可以很好的解决化学结构图片的噪声问题,并且正确的重构分子的结构图(图4c)。此外,从分子翻译输出的文本编码来看,国际化合物标识InChI具有严格的语法规则,任一字符出错都会大概率导致整体编码无效。因此,与常规化学结构式图像识别任务不同,这次挑战赛要求更高:参赛模型不仅要识别分子图像,而且要输出正确有效,符合InChI语法的分子结构(图4d)。

  数据、算法和算力是人工智能技术发展的基础要素。近年来,人工智能在算法和算力方面突飞猛进,数据已逐渐成为限制人工智能技术进一步发展的短板。在药物研发和化学研究领域,数据匮乏的问题更加明显,如何有效地提取和整合可用于AI建模的高质量数据是亟待解决的问题。上海药物所团队开发的分子翻译算法能从带有噪声的图像中准确地提取化合物结构信息,可以用于真实世界的化学和药学文献以及ZL数据的自动挖掘和分析,这将极大地促进生物医药和化学大数据的构建,进而为后续人工智能算法的开发奠定坚实的基础。蒋华良院士将这种使用AI技术挖掘数据,并在此基础上构建AI算法的思路称为AI2。这一思路展示了AI通过自主“进化发展”实现从功能向能力转变的特征,是通往强人工智能道路上的积极尝试。

  附注:

  Kaggle比赛介绍:Kaggle是国际上最著名的数据科学竞赛平台之一,由于其受众广、影响深远和赛制公平,被视为是机器学习算法检验的试金石。许多企业、科研院所或政府机构会根据自己所关注的问题在kaggle平台组织竞赛,通过悬赏高额奖金向全世界的研究者寻求解决方案。该平台举办的比赛一般是为了解决某领域面临的共性问题或探索未来的发展方向,因此比赛的意义重大。其中,一些Kaggle竞赛的结果甚至为学界提供新的研究方向。以2012年Merck公司发起的“分子活性预测”挑战赛为例,在比赛中绝大部分队伍使用的是传统机器学习方法如随机森林模型,而Dahl和Hinton团队使用了当时新发展的深度神经网络。最终Hinton团队的深度学习模型从两百多只队伍中脱颖而出,赢得了这一赛事的冠军,这次比赛后来也成为人工智能领域的标志性事件之一。自此之后,利用深度神经网络预测药物分子性质受到越来越多的关注,推动了人工智能在药物研发领域的发展。近年来,Kaggle平台举办的与药物研发相关的竞赛逐渐增多,如斯坦福大学组织的“开放疫苗:COVID-19mrna疫苗降解预测”,哈佛大学组织的“药物作用机制预测”, Human Protein Atlas 组织的“人类蛋白图谱-单细胞分类”挑战赛,以及最近刚落下帷幕的有百时美施贵宝组织的 “Bristol-Myers Squib-分子翻译” 等多项竞赛。这些比赛的主题一方面彰显了机器学习社区对医药领域浓厚的兴趣,另一方面说明通过构建AI模型能切实解决该领域面临的实际问题。未来,随着数据的积累和算力、算法的进一步发展,可以预见AI在药物研发领域将起到越来越重要的作用。


相关文章

推动AI赋能更多生活场景

大模型、机器人、智能制造、自动驾驶……过去一年,人工智能频上头条,也成为今年北京两会上的热词。代表和委员们认为,北京在人工智能产业优势明显,AI赋能百姓生活和产业,让千年古都变得更聪明。建立数据中心让......

ANNONCOL:人工智能在免疫肿瘤学中预测性生物标志物发现:系统评价

该综述评估了90项已确定的研究,涉及癌症的四种主要数据模式,描述了数据集、方法、生物标记物和结果。免疫疗法(IO),特别是免疫检查点抑制剂(ICIs)的出现改变了许多癌症患者的治疗方法,包括黑色素瘤、......

生物医药最有望爆发的10大领域,竟然是这些技术?

基于全球未来生物医药产业布局及我国的重点研究方向,结合当前至2035年我国未来生物医药产业发展面临的形势,西湖大学未来产业研究中心探索性提出我国未来生物医药产业需重点关注和大力支持的十大领域(排序不分......

两大芯片巨头,创历史新高

随着投资者继续热捧人工智能芯片制造公司的股票,AMD和英伟达周四股价创下历史新高。AMD股价在周四交易中上涨超过1%,达到历史最高收盘价162.67美元,而Nvidia则上涨近2%至571.07美元。......

边缘AI新纪元正在到来

生成式人工智能(AI)成为2023年最激动人心的科技故事。其影响力堪比互联网和智能手机的出现。生成式AI的传奇仍在延续,科技界也在翘首以盼下一位巨星的到来。包括美国初创企业、物联网和边缘平台公司Cle......

学者成功构建卵巢癌诊断人工智能融合模型

近日,中山大学肿瘤防治中心妇科教授刘继红团队与合作者,针对卵巢癌目前早期诊断困难、缺乏有效肿瘤标志物的困境,基于常规体检中的实验室检验构建了卵巢癌诊断人工智能融合模型,为卵巢癌提供了一种低成本、易获取......

两个不同指纹是否属于同一个人?AI有答案

人类手指指腹上,凹凸的皮肤形成特殊纹路,这便是指纹。目前尚未发现不同的人拥有相同指纹的案例,因此指纹是每个人独有的标记,被广泛应用于身份识别、刑事侦查等领域。近日,一项发表于《科学进展》的研究,利用人......

石景山通用人工智能大模型产业集聚区一期将于今年开园

今年,石景山区将重点推动通用人工智能大模型产业集聚区建设,集聚区一期将实现开园,打造通用人工智能大模型技术研发、创新应用和产业集群。石景山区抢抓产业发展机遇,发布《通用人工智能大模型产业集聚区工作方案......

人工智能导致人类灭绝的可能性为5%

许多人工智能研究人员认为,未来,超级人工智能的发展有可能导致人类灭绝。不过,对于这种风险,存在广泛的分歧和不确定性。这些发现来自对2700名人工智能研究人员的调查,他们最近在6个顶级人工智能会议上发表......

2024年美国消费电子展开幕

2024年美国拉斯维加斯消费电子展9日开幕,人工智能技术及相关应用是今年展会最大的热点。据展会主办方美国消费技术协会介绍,将有来自150多个国家和地区的4000多家企业参加为期4天的展会。其中,除佳能......