发布时间:2016-09-01 15:05 原文链接: 基因数据噪音或可保护患者隐私

  大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的。不过,对于贡献了DNA的人来说,这会带来隐私风险。一项2013年的研究显示,黑客能利用网络上公开可用的信息,从被匿名的基因组数据中辨别出人们的身份。

  为解决这些担忧,一个由美国麻省理工学院计算机科学家Bonnie Berger和Sean Simmons研发的系统利用了被称为差分隐私的方法。它通过向用户查询结果中添加少量噪音或者随机变异,模糊捐赠者的身份。研究人员在最新一期的《细胞系统》杂志上发表了他们的成果。

  该系统会计算研究人员想要的统计数值,比如一个遗传变异同某种特定疾病存在关联的几率,或者同一种疾病最相关的5个遗传变异。然后,它向结果中添加随机变异,并且返回本质上带有轻微错误的信息。比如,在对同某种疾病相关的前5个遗传变异的查询中,系统可能会产生前4个遗传变异以及第6个或第7个变异。

  用户并不知道哪个查询结果更正确,但仍能利用这些信息。只是对于想弄清楚数据背后的患者信息的人来说,变得更加困难了而已。

  “当你在系统中加入一点点噪音,从很多方面来说,它同数据开始自带的噪音并没有太大的不同。”田纳西州范德堡大学计算机专家Bradley Malin表示,“在一定程度上,它仍然是可靠的。”几十年来,美国人口普查局和劳工部一直通过这种方式向它们的数据中添加噪音。

  只要数据库足够大——含有来自几千或更多人的信息,同时研究人员保持在限制其能询问问题数量的“隐私预算”之内,利用此项技术的数据集中的个人隐私便不会受到侵害。用户将无法询问一个基因组中的几百个或上千个位置。

  受该技术保护的数据库可被立即搜索到,而目前要获准调用由包括美国国立卫生研究院在内的各机构管理的数据库可能需要数月。

  Simmons和Berger表示,即便带有噪音,在询问一些有针对性的问题时,该系统提供的答案仍然足够有用。“它主要被用于获取通过其他途径可能无法接触到的数据集。”Simmons介绍说。

  比如,如果分析一个小型数据集的研究人员发现了同某种疾病存在关联的遗传变异,该系统能让他们利用规模大很多且通过其他方式无法获取到的数据集证实这一关联。它还能让研究人员预览某个数据集,从而在进行耗费时间的完整获取申请流程前判定其有用程度。

  “我认为,这是一项极其卓越的数学工作。”哥伦比亚大学计算生物学家Yaniv Erlich表示,“理论上讲,它很不错。不过,从实际的角度来说,我并不确定它会派上用场。”

  Erlich的一个担忧来自该系统的问题限制。在他看来,现在研究人员想要的是分析同某种疾病存在关联的前10个或100个遗传变异,而不是前5个。

  与此同时,Erlich 表示,“人们并不喜欢在其数据中加入噪音”,因为产生这些信息需要经过很多艰苦的工作。噪音问题还会对基于此类信息的临床决策产生令人不安的影响。

  Malin认为,该系统会在查询结果中添加大量噪音的可能性非常小。“这让人们感到有点不自在。”

  不过,Simmons正试图改进这一系统,在实现相同的隐私保护效果的同时尽量添加较少的噪音。Berger则同哈佛大学—麻省理工学院博德研究所合作,确定减少隐私风险的方法。这或许可通过利用差分隐私技术实现。如果该研究所决定在更大范围内释放来自其数据库的基因组数据,这将会派上用场。

  “最终,这就是我们真正关心的事情。”Simmons表示,“让这些数据尽可能被更加广泛地获取到。”

相关文章

利用真实世界数据,验证癌基因组学特征与临床结果联系

近日,在一项发表在《美国医学会杂志》(JAMA)上的最新研究中,来自美国FlatironHealth和FoundationMedicine公司的研究人员利用大型临床基因组学数据库,证实了以前已知的非小......

15000年前“农民”全基因组数据出炉

英国《自然·通讯》杂志近日发表的一项遗传学报告中,德国科学家公布了生活在15000年前的安纳托利亚“农民”的首个全基因组数据。该研究结果有助于认识欧亚大陆的农业起源。图片来源于网络农业在公元前1000......

科学家获取首个中国地区古人基因组数据

记者从中国科学院古脊椎动物与古人类研究所获悉,由该所研究员付巧妹、高星、同号文及博士后MelindaYang领衔的古人类研究团队,与德国马普进化人类研究所等团队合作,于前不久获取了第一个中国地区古人的......

基因组数据显示现代人类进化细节

据物理学家组织网报道,发表在5日出版的《公共科学图书馆·生物学》杂志上的研究论文显示,对英美两国21万人基因组数据分析发现,在长寿人群中,较少发生与阿尔茨海默症和重度吸烟相关的遗传变异,这表明自然选择......

为何大家愿意公开自己基因组数据?

2007年,在诺贝尔奖得主JamesWatson共同发现DNA结构的54年之后,他成为了第一个完成个人基因组测序的人,当时这花费了近100万美元。但随着近年来测序成本的下降,到了测序先驱CraigVe......

5万人基因组+电子病历数据揭示基因与疾病重大关联

2012年,基因产业界暗流涌动,制药巨头安进(Amgen)斥资4.15亿美元全资收购deCODEgenetics,这个拥有「世界上最有价值基因组数据库之一」的公司,坐落在冰岛,拥有近40万人的基因组数......

基因数据噪音或可保护患者隐私

大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的。不过,对于贡献了DNA的人来说,这会带来隐私风险。一项2013年的研究显示,黑客能利用网络上公开可用的信息,从被匿名的基因组数据中辨......