发布时间:2024-03-29 09:16 原文链接: 虚拟临床试验如何“喂电子小人吃电子药”

原文地址:http://news.sciencenet.cn/htmlnews/2024/3/519960.shtm

去年ChatGPT爆火,我们也希望大模型能为医学领域提供更好的帮助,但最终发现,ChatGPT是基于互联网语料建立的生成式模型,它生成的的确是内容,但不一定是科学洞见。于是从2023年下半年开始,我们逐渐转向开发面向科学的人工智能模型(AI for science, AI4S)。

与ChatGPT是语言驱动模型不同,AI4S是数据驱动模型。通过学习海量的科学数据,掌握其中的内在规律和分布特征,能够自主生成新的、合理的、有价值的洞见,例如药物机制、分子结构、工艺路线、试验方案等,最重要的是能够将一个真实人转化为生活在数字世界中的电子版本,即人的数字孪生。可以说,AI4S生成的是新内容,也是新洞见。

  ?

牛钢(作者供图)

人工智能怎么理解疾病

AI4S主要通过文献挖掘、多组学数据整合、医学影像分析、电子病历挖掘、生理学建模、患者异质性分析和因果推断等手段获取知识和规律并作出判断,从而理解疾病。从根本上说,我们需要的就是知识驱动型AI和数据驱动型AI。

什么是知识驱动型AI?以治疗狂犬病为例,假设一个人被感染病毒的狗咬伤后感染了狂犬病毒,又没有及时打疫苗,AI如何解决这个问题?

首先,AI会在除疫苗之外的所有狂犬病相关文献中挖掘知识颗粒,即特定研究方向的结构化多维信息复合体,然后再将每个知识颗粒用特定文献训练成可以感知特定内容的神经元。这些神经元组成超脑后,就可以把对内容的感知转化为可以解决问题的认知。超脑通过阅读狂犬病的临床病例继续训练,形成世界上最懂狂犬病的认知AI模型,再用该模型分别阅读所有已上市药物的说明书和相关文献,之后给每个药物打分。分数越高,越可能应用到当前这种临床场景,患者越可能从这些老药中直接获益。

如果我们不想让AI完成所有工作,希望专家参与到理解狂犬病机制和选择用药方案的过程中,该模型还可以搭建结构化的狂犬病知识库。专家通过知识库,在很短时间内就能理解疾病并确定方案,不需要再看上万篇文献,这不仅弥补了人脑的局限性,也提高了效率。

从真实患者到数字孪生

建立患者和健康人数字孪生是数据驱动的AI4S在人类健康上最关键的任务。数字孪生既能助力药物研发,促进精准用药、人群差异化、生产质控、药物重定位、靶点发现、药物组合、虚拟临床试验、分子发现和定量药理;也能助力临床医学,推动个性化医疗、精准预防、高效早诊、手术规划、治疗方案、多学科决策、远程医疗、健康管理和虚拟试药。

建立真实世界人类的数字孪生的基本思想主要有四点。第一,从真实世界采集的人类数据包含人与人之间特定方面的差异信息,基于这种差异信息要能在数亿人中精确定位特定人类个体;第二,基于上述数据提取的多维特征继承差异信息且排除噪声;第三,基于多维特征为每个人构建特定用途的数字孪生模型;第四,建立包含大规模自然人群的数字孪生“元宇宙”作为全新的健康基础设施,为了满足不同临床或保健需求,可以建立不同应用,实现不同功能,例如临床诊疗和新药研发。

基于这个模型,我们可以输入个人数据预测其生理、病理或药代动力学特征;输入患者个人疾病信息预测该患者的病因、病理、潜在预后、治疗方案及潜在靶点;输入药物及靶点信息预测潜在适应证,输出临床试验方案等。

需要注意的是,由于生成式模型本身依赖于数据的统计分布和变量之间的条件概率,因此需要进行巨量数据训练。然而,人类疾病数据天生就是“小数据”,尤其是罕见病。即便是癌症与自身免疫性疾病,也存在因病理复杂、疾病机制异质性强而导致的每个亚型数据并不多的问题。在这种情况下,盲目建立和使用大模型,对于在真实临床场景解决真实问题的作用就非常有限。

要解决这些问题,就要回到第一性原理,从最有价值的数据出发,建立能够针对小样本的AI4S模型。从疾病发生的底层逻辑来说,理解人类进化的方法是“第一性”的。而从数据角度来说,组学数据是“第一性”的,而组学数据内部DNA数据是“第一性”的。因此,谁能基于人类基因组DNA序列信息读出每个人更多的机制性定量信息,谁就能做出更好的数字孪生。

“电子药物”的开发

开发电子药物的前提是已经开发出患者和疾病的数字孪生。在此基础上,特定药物也需要建立数字孪生,之后才可以自由开展虚拟临床试验,探索药物的适用人群、新适应证、潜在耐药原因,以及联合用药方案的理性设计。那么如何建立药物的数字孪生,也就是所谓的“电子药物”?

一种策略是基于靶点和既往同类药物的所有知识,采用知识驱动的AI模型建立电子药物。例如建立知识库后建立真实作用机制(MOA)模型,提取生物标志物、药物敏感或耐药机制等,把这些信息转化为数字化标签,通过非监督方式在患者的数字孪生库中进行标注。标注过程可以看作虚拟临床试验,而标注的统计分布结果就是虚拟临床试验的结果。

第二种策略是利用靶基因的分子生物学与细胞生物学数据建立功能性模型和数字化标签,之后按照第一种策略中的标注和统计方法进行模拟。

第三种策略是通过不同疾病特征间接建立模型。例如CDK4/6抑制剂在Luminal B型乳腺癌治疗上获得成功,而对三阴性乳腺癌效果不佳,那么这个药物的机制可以被两种乳腺癌的差异所代表。如果可以根据特定组学数据将这种差异反映出来,并转化为评分,那么这种评分就能向其他癌症类型推广。以上这些工作完成,只要药物性质没有问题,临床试验想失败都难。

我们和上海市胸科医院教授陆舜合作,采用AI4S模型在肺腺癌的不同分子病理型上基于组学数据建立了Pd-1/Pd-L1单抗类药物的电子药物,并找到了一种广泛存在的原发耐药机制。我们还对肺腺癌免疫药物一线治疗做了两轮预测。第一轮单独采取肿瘤基因组数据预测,其中有两位患者预测错误。第二轮增加了胚系基因组数据后,所有患者全部预测正确。究其原因,胚系基因组编码了免疫系统先天的抑制状态,因此尽管患者肿瘤并未产生免疫抑制,但是T细胞很难浸润肿瘤组织,导致患者使用免疫药物无效。这表明,只有把胚系基因组和肿瘤基因组结合在一起,才能解释清楚肿瘤的大部分功能。

另外,上述电子药物建立的方法不仅可以预测PD-1/PD-L1单抗的疗效,更重要的是找到了PD-1/PD-L1在泛癌种中出现耐药现象的基本规律。摸清这个规律,我们就能明白是肿瘤的哪条信号通路导致了原发耐药,继而研发一个新的药物解决这个问题。利好的消息是,目前这个新药已经在开发当中。

相关文章

新方法可提高图神经网络处理数据的准确率

山西大学智能信息处理研究所团队在图神经网络研究方面取得重要进展,相关成果5月23日发表于人工智能领域国际期刊《IEEE模式分析与机器智能学报》(IEEETransactionsonPatternAna......

电影《749局》科影融合特别场举行

原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......

甘肃林业职业技术大学揭牌成立

10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......

守护“水塔”,在“世界屋脊”上打一场攻坚战

”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......

关于确定2024年国家环境健康管理试点名单的通知

关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......

首个菊科多组学数据平台AMIR发布

10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......

南邮“金牌教练”:清醒状态下“时时在线”

实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......

中国计量大学主持制定的两项国家标准正式发布

近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......

多级赋码追溯柔性包装生产线研制与应用通过鉴定

10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......

我国科学家获得全球首个纯合基因编辑橡胶苗

近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......