发布时间:2025-07-01 10:40 原文链接: 基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子效应仍是重大挑战。现有深度学习模型在预测功能基因组特征时,往往在输入序列长度与预测分辨率之间难以兼顾,同时在多模态预测方面也存在局限性,这极大地制约了人们对基因组调控密码的理解。

近日,谷歌DeepMind公司推出一种深度学习模型——AlphaGenome,能够更全面、更准确地预测人类DNA序列中的单个变异如何影响基因调控的广泛生物过程。AlphaGenome可分析多达100万个DNA碱基对,以单碱基分辨率预测与调控活动相关的数千种分子特性;并通过比较突变序列和未突变序列之间的预测结果,来评估基因变异的影响。在超20项基准测试中,该模型表现优异、达到或超过了现有最强外部模型的性能,为科研人员提供了从序列进行基因组轨迹和变异效应预测的工具。

据悉,DeepMind将通过AlphaGenome API(https://github.com/google-deepmind/alphagenome),提供预览版AlphaGenome用于非商业研究,并计划在未来发布该模型。

与现有DNA序列模型相比,AlphaGenome的特点包括:

高分辨率的长序列上下文输入预测

AlphaGenome模型以长达100万个碱基对的DNA序列作为输入,对数千个功能基因组轨迹进行预测,且预测分辨率可达单碱基级别。

◆综合多模态预测

AlphaGenome能够预测11种分子模态,包括基因表达(RNA-seq、CAGE-seq、PRO-cap)、剪接模式(剪接位点、使用率、连接点)、染色质状态(ATAC-seq、组蛋白修饰等)及染色质可及性(Hi-C),提供更全面的基因调控信息。

◆高效变异评分

除预测各种分子特性外,AlphaGenome还能在1秒内高效地评估基因变异对所有这些特性的影响。

◆新颖的剪接位点建模能力

AlphaGenome能够直接从序列中明确模拟剪接点的位置及表达水平,为理解遗传变异如何影响RNA剪接提供更深入的见解。


图1. AlphaGenome模型架构、训练机制和综合性能评估

AlphaGenome是首个将多模态预测、长序列上下文和单碱基分辨率统一到单一框架中的模型。AlphaGenome采用了U-Net网络架构,借助卷积层捕捉短序列模式,通过Transformer模块建模长距离依赖关系,实现了对100万个DNA碱基对的高效处理。模型包含序列编码器、Transformer模块、成对交互模块、解码器和任务特定输出头五个核心组件,可生成一维和二维的序列表示,分别用于基因组轨迹和染色质接触图的预测。

在训练过程中,研究团队采用预训练和蒸馏两阶段策略,对ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共联盟数据进行训练这种训练策略使得AlphaGenome在NVIDIA H100 GPU上单次预测耗时不到一秒,极大地提高了大规模变异效应预测的效率。

接下来,研究团队在人类和小鼠基因组中对AlphaGenome进行跨模态基准测试。

在24项基因组轨迹预测任务中,AlphaGenome表现出色,在其中22项中性能超越外部模型。如在基因表达预测方面,与多模态模型Borzoi3相比提升17.4%;染色质构象方面,接触图谱相关性较Orca提升6.3%;转录起始轨迹方面,PRO-cap信号预测相关性较ProCapNet8提升15%;在可及性上也优于ChromBPNet10。

在26项变异效应预测评估任务中,AlphaGenome同样性能优异,在24项中优于外部模型。以剪接变异效应预测为例,其是首个能同时预测剪接位点、剪接位点使用情况和连接位点的系统。在ClinVar致病性变异预测等多个基准测试中,其复合评分表现突出,在6项基准测试中达到了state-of-the-art (SOTA)水平。

对于基因表达调控相关任务,AlphaGenome在表达数量性状位点(eQTL)效应预测上优势明显,其对eQTL效应大小和方向的预测准确性均超越了Borzoi等模型。在染色质可及性和转录因子结合变异预测中,AlphaGenome在多种族的caQTL、dsQTL和bQTL评估中均实现领先性能。

图2.AlphaGenome与其他方法的比较

在解析T细胞急性淋巴细胞白血病的致癌机制时,AlphaGenome精准重现TAL1基因三种致癌变异分子效应:5'新增强子突变、内含子单核苷酸变异和3'新增强子等三类变异可通过上调TAL1癌基因表达发挥作用,展现了其在解析复杂变异机制方面的能力。

图3.AlphaGenome解析跨模态的变异效应

最后,研究团队还进行了消融实验,以验证对AlphaGenome性能有较大影响的关键设计和训练决策。结果显示,1 bp分辨率训练效果最佳,尤其适用于剪接和可及性等精细任务;1 Mb输入序列训练并结合完整背景预测性能最优;蒸馏策略可在保证性能的同时大幅降低预测成本;多模态学习则有助于提升模型的整体预测能力。

纪念斯隆凯特琳癌症中心的研究员Caleb Lareau博士表示:“这是该领域的一个里程碑。我们第一次拥有了一个单一的模型,其能够将远程上下文、基础精度和各种基因组任务的最先进的性能统一起来。”

AlphaGenome首次实现兆碱基尺度下多模态调控变异的统一预测,大幅提升了变异效应预测的准确性与全面性,为疾病理解、合成生物学及功能基因组学研究提供了强有力的工具。虽然该模型当前仍存在远端调控元件预测精度不足、条件特异性效应建模待改进等局限,未来通过整合单细胞数据、拓展数据模态等研究方向的探索,相信AlphaGenome有望进一步完善,为破解基因组调控密码、推动生命科学研究持续贡献力量。

参考文献:

1.https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome

2.https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf


相关文章

新研究破译薇甘菊入侵基因密码

薇甘菊作为全球十大最具危害的恶性入侵杂草之一,以其惊人的繁殖速度和强大的环境适应性,在亚洲、太平洋地区及中国华南地区造成严重生态破坏。然而,其基因组层面的适应性进化机制长期未被系统解析,制约了科学防控......

研究开发出酵母泛基因组数字模型与代谢网络分析方法

近日,中国科学院大连化学物理研究所研究员周雍进团队与上海交通大学副教授鲁洪中合作,在酵母系统生物学研究中取得新进展。研究团队通过整合分析全球1807株酿酒酵母菌株的基因组与生态位数据,构建了高覆盖度的......

基因组大数据还原野猪横跨欧亚的百万年迁徙历程

近日,中国农业科学院农业基因组研究所农业基因编辑技术创新团队深入解析了中亚野猪种群在跨越欧亚大陆百万年的迁徙历程中适应环境的独特遗传密码,为理解大型哺乳动物如何应对环境变化提供了全新视角。相关研究成果......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......

谷歌DeepMind推出AlphaGenome:AI破解40亿年DNA密码,开启基因组研究新纪元

基因组,宛如生命的蓝图,藏在我们每一个细胞之中。这套完整的DNA指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。2003年,人类基因组测序完成,让人类首次窥见了DNA......

“女娲”基因组计划发布第八项成果

近日,中国科学院生物物理研究所徐涛研究组和何顺民研究组在《基因组、蛋白质组与生物信息学报》杂志发表论文。两位科学家牵头的“女娲”中国人群基因组计划旨在构建中国人群的全基因组数据资源,支撑中国人群的疾病......

适应雨林?古人类混血?东南亚人群基因组被破译

中外团队历时10年,在东南亚人群基因组研究领域取得里程碑式突破。北京时间14日晚,“东南亚人群基因组计划”首期成果发表在国际期刊《自然》上,东南亚人群的遗传演化之谜被揭开。论文通讯作者之一、中国科学院......

东南亚人群基因组计划首期成果发表

东南亚是全球最重要的人类演化区域之一。该地区人群拥有极高的遗传多样性,但基因组学研究长期缺失,制约了人类环境适应性进化与疾病遗传机制的深度解析,因而被称为全球人类基因组研究“最后一块拼图”。中国科学院......