发布时间:2025-02-26 18:21 原文链接: SecureFederatedGWAS:打破数据壁垒,开启基因组研究新篇

在生命科学的广袤领域中,基因组关联研究(Genome-Wide Association Studies,GWAS)宛如一座灯塔,照亮了探索遗传变异与健康、疾病关系的道路。想象一下,若能整合全球各机构的基因数据进行研究,那将为攻克疑难病症、揭示生命奥秘带来多大的助力!然而,现实却如同一堵高墙,横亘在理想与现实之间。现有的数据共享法规对多机构间的数据合作设下重重限制,使得大规模的联合研究难以开展。同时,尽管加密计算工具承诺保障数据隐私,但以往的方法要么计算成本过高,无法在实际中应用;要么无法支持当前最先进的分析方法,导致研究进展缓慢。

在这样的困境下,来自多个研究机构的科研人员决心突破障碍,其中领衔的是 [第一作者单位]。他们聚焦于如何在保障数据隐私的前提下,实现高效准确的跨机构基因组关联研究这一关键问题,展开了深入探索。经过不懈努力,他们成功开发出 Secure Federated GWAS(SF-GWAS),这一成果犹如一把钥匙,打开了跨机构基因组研究的新大门,相关研究成果发表于《Nature Genetics》。

研究人员在开展此项研究时,运用了多种前沿技术。在加密技术层面,创新性地将安全多方计算(Secure Multi-Party Computation,MPC)和同态加密(Homomorphic Encryption,HE)相结合,构建了混合加密框架。同时,精心设计了分布式算法,以此支撑各类全基因组关联分析流程。在数据来源上,使用了多个不同规模和类型的数据集,如 UK Biobank 队列、eMERGE 联盟数据集等,为研究提供了丰富的数据基础。

下面来详细看看研究的关键成果:

  1. 性能大幅提升:研究人员将 SF-GWAS 与先前的 S-GWAS 方法进行对比,分析了肺癌、膀胱癌和年龄相关性黄斑变性(AMD)等数据集。结果令人振奋,SF-GWAS 在运行时间和通信成本上都实现了显著降低。以 AMD 数据集为例,SF-GWAS 的运行时间仅为 4.6 小时,相比 S-GWAS 的 64.3 小时,足足缩短了 14 倍;通信成本也从 666.6GB 降至 173.7GB,减少了约 3.5 倍。这一成果表明,SF-GWAS 在实际应用中具备更高的效率。

  2. 准确再现分析结果:在 eMERGE 和 UK Biobank 等大型数据集的测试中,SF-GWAS 基于主成分分析(Principal Component Analysis,PCA)计算出的关联统计数据,与使用 PLINK 软件对合并后的明文数据进行分析的结果高度吻合。这意味着,即使数据分散在不同机构,通过 SF-GWAS 也能得到与集中分析几乎相同的准确结果,有力地证明了该方法的可靠性。

  3. 支持多种分析流程:SF-GWAS 不仅支持基于 PCA 的分析流程,还对基于线性混合模型(Linear Mixed Models,LMMs)的关联测试展现出良好的适应性。在对包含 409,548 名欧洲裔个体的 UK Biobank 数据集的分析中,SF-GWAS 基于 LMMs 产生的关联统计数据与直接在合并数据集上运行 REGENIE 软件得到的结果精准匹配,充分显示了其在复杂分析场景下的强大能力。

  4. 适用于多种性状分析:针对二进制性状(如疾病状态)的分析,以往的安全 GWAS 研究存在局限,而 SF-GWAS 通过纳入基于牛顿法的分数检验算法,成功实现了对逻辑回归模型的高效支持。重新分析 S-GWAS 的三个数据集时,SF-GWAS 不仅得到了与 PLINK 一致的结果,而且运行时间控制在 5.3 小时以内,与线性回归分析的运行时间相当,极大地拓展了其应用范围。

  5. 助力跨机构联合分析:研究人员利用 SF-GWAS 对来自不同机构的 AMD 相关数据集进行联合分析,涵盖了国际 AMD 基因组学联盟(IAMDGC)、eMERGE 联盟和 UK Biobank 的数据。结果不仅验证了该方法的准确性,还成功识别出与 AMD 相关的重要遗传变异。这一应用展示了 SF-GWAS 在整合多源数据、推动跨机构研究方面的巨大潜力。

研究结论和讨论部分进一步凸显了这项研究的重要意义。SF-GWAS 为多机构的 GWAS 研究提供了一种安全、高效且可扩展的解决方案,在严格保障数据隐私的同时,实现了大规模的跨机构合作分析。它的出现,为未来生物医学研究的突破奠定了坚实基础,有望加速基因与疾病关系的探索进程,推动个性化医疗的发展。尽管未来仍面临一些挑战,如进一步拓展分析任务、应对恶意攻击等,但 SF-GWAS 无疑为基因组研究开辟了新的方向,引领着科研人员在生命科学的道路上不断前行。


相关文章

为何有人衰老更快?揭秘背后的400个基因

有些人比同龄人更显年轻,而有些人看着更显老;有些人年逾九旬仍身心康健,而另一些人早在数十年前就饱受糖尿病、阿尔茨海默病或行动障碍的困扰;有些人能轻松应对严重摔伤或流感侵袭,而有些人一旦住院就再难康复。......

科学家发现玉米耐热关键基因

近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......

降本提效!我团队研制出系列牛用基因芯片

记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......

新研究:阻断或抑制一种特殊基因可选择性杀伤癌细胞

国际期刊《内分泌学前沿》日前刊登的一项新研究揭示,一种特殊基因对肠道吸收维生素D及其后续代谢过程至关重要,阻断或抑制该基因能够选择性抑制癌细胞生长。这一发现在癌症治疗等精准医学领域具有广阔应用前景。维......

我国科学家发现大豆种子油蛋比调控关键基因

记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,解析了关键基因对大豆种子油脂和蛋白比例(油蛋比)的调控机制,为高油或高蛋白大豆品种选育提供了新方向。......

茶叶大小谁定?这个基因很关键

茶树是以收获新梢为主的叶用经济作物,茶芽大小不仅直接影响鲜叶的产量和品质,还与茶类适制性密切相关。解析茶树芽大小的遗传调控机制,有助于改良茶树品种、提高茶叶产量。近日,中国农业科学院茶叶研究所种质资源......

这项研究找到了玉米穗叶结构候选基因

玉米作为全球重要的粮食、饲料和工业原料作物,其高产对保障粮食安全至关重要。近日,东北农业大玉米遗传育种团队完成的研究在《农业科学学报(英文)》(JournalofIntegrativeAgricult......

科学家找到一个让水稻更耐冷的关键基因

水稻作为起源于热带或亚热带的粮食作物,其生长发育对低温胁迫敏感。伴随全球气候变化加剧,极端低温事件发生频率显著上升,发掘耐冷基因并解析分子机制,有利于水稻高产稳产遗传改良。目前,利用自然群体挖掘的水稻......

全球人类基因组研究“最后一块拼图”找到了

东南亚人群基因组计划概念图。受访者供图东南亚是全球最重要的人类演化区域之一。该地区人群拥有极高的遗传多样性,但基因组学研究却长期缺失,制约了人类环境适应性进化与疾病遗传机制的深度解析,因而被称为全球人......

油菜害虫研究新突破:西北斑芫菁基因组数据发布

近日,中国农业科学院油料所(以下简称油料所)油料基因工程与转基因安全评价创新团队发布了油菜害虫西北斑芫菁染色体水平高质量基因组数据,明确该害虫含10条染色体和11687个蛋白编码基因,为研发害虫绿色防......