发布时间:2014-11-10 14:05 原文链接: GoogleGenomics:25元/年的基因云存储生意

  相较于Google研究的高大上的月球探测器项目,Google Genomics可能对人类有更重大的意义。从现在的配对数千组基因组,随着技术的发展未来能做到配对数百万对,Google Genomics计划无疑能推动下一个十年内医学的发展。但是我们的问题又来了,亚马逊、Google、IBM、微软,巨头们开始争论,究竟谁有资格保管这些重要的基因信息?

  其实早在18个月前,Google已经着手在准备基因组计划,搭建了应用程序接口API,邀请领域内的科学家们将DNA数据转移到Google的服务器,使用相同的数据库技术索引备份人类的基因数据。

  Google Genomics的软件工程师和前任Google+的平台工程师David Glazer说,“那些杰出的生物学家们借助Google的这项技术,从先前只能做到一次研究一对基因组,到现在可以使用海量的数据库资源,是数据库技术的突破创新让人类的生物研究迈出了坚实的一步。”

  虽然说有部分科学家们仍在质疑,Google是否有足够的能力来正确处理复杂的基因数据。但是许多人已经看到了进步和变革。斯坦福大学生物信息学专家Atul Butte,在得知Google Genomics计划之后,他这样表示,“我终于能切实体会,当年旅行社看到Expedia横空出世时的感受了。”(注,Expedia是全球最大的在线旅游公司)

  当生物实验室采取新的更快的实验设备来解码DNA信息,就会出现信息存储空间不足、信息爆炸的情况。举个例子说明,美国马萨诸塞州Broad Institute研究所表示,一组人类基因组信息翻译出来的数据大小有200TB,而他们实验室在10月份的工作量相当于每32分钟就会处理出一组基因组数据,所以需要的数据容量存储空间对于一家研究所来说,将是个天文数字。

  虽然说如此海量的信息,一家实验室可能hold不住。但是这对于互联网巨头公司来说还算是九牛一毛。实际上Broad Institute每两个月产生的基因信息总量相当于YouTube的全体用户的一天上传总量。所以说出于生物科学的需求,需要有公司站出来担当基因信息数据存储读取的中心节点,而这通常都是一家商业网站。美国国家癌症中心上周发表声明说,将会斥资1900万美元将容量大小为2.6PB(1PB=1024^3MB)的癌症基因组图谱上传到云端。这些资料来自于数千名癌症患者,数据将会备份在Google Genomics和亚马逊数据中心。

  西雅图系统生物学研究室的科学家Sheila Reynolds表示,“在之前,没有人有能力处理1PB那么多的海量信息,更不用说实验运算了”。项目的初衷是为了建造“癌症基因组云数据库”,让全世界的科学家们能够像使用搜索引擎那样,方便快捷的共享基因信息,进行虚拟的生物实验。

  Google和亚马逊两个巨头公司耗费了一年的时间,争夺云端的基因资源。Google表示他们收取的价格更为低廉,只需要花费25美元/年,就可以存储一个独立自然人的原始基因组信息,大约为100GB大小。但是经过计算处理后的基因序列更加迷你,将会少于1GB,上传存储到云端的费用也更少,仅仅只需要0.25美分/年。

  基因的云存储也滋生了一些新生代公司,例如Tute Genomics,,Seven Bridges和NextCode Health,他们的主要工作是为医院和科学家门搭建搜索基因数据的浏览器。Seven Bridges公司在亚马逊云存储中上传了1600名研究人员的基因信息,CEO Deniz Kural表示,“Google和亚马逊都是强大的后端,他们经常会说,‘来我们的云上建一个基因公司吧’。”

  更为重要的一点意义是,这项技术的进步能够逐渐搭建起全球DNA互联网。Deniz Kural补充说明道,“在未来比如说有位肺癌病人,医生会将他的健康细胞和肿瘤细胞的基因组信息分别排序,在DNA互联网中检索其他几千万的基因信息。接着医生会告诉病人,‘通过检索配对得出,这款药物对你的癌症很有疗效’。”这对于治愈癌症是有着重大的意义的。

  因为基因正在从小规模朝着“批量生产”的工厂化的方向转变。David Glazer说自己通过阅读遗传学相关书籍,参加由Broad Institute的领导人Eric Lander教授的网络课程Introduction to Biology,来学习丰富该领域内的知识。此外值得一提的是,Glazer也把自己的基因组信息上传到了云端。

  Glazer虽然没有说明Google Genomics现在的具体规模和拥有的用户数量,但是至少能肯定的是,Google云端现在存储着来自公共项目的3500个基因组信息。并且Google Genomics与Google自家的健康领域公司,比如说今年开办的研究延长人类寿命的Calico公司,两者并没有太大的联系和利益关系。

  斯坦福大学最大的遗传学计算机组的负责人Somalee Datta说,现在在云端存储基因的成本降低了,亚马逊和Google的价格差不多是相同的,“我们认为价格还会持续走低,最后将会趋于平民化,让所有人都能接受。”

  Datta同样表示,斯坦福大学的一些科学家们正在使用Google的一款数据库,BigQuery。它的最初用途是为了追踪用户的浏览行为,现在研究者正在努力改进,让数据库能够迅速处理大量的实验数据,在短时间内配对成百上千的基因组。Datta说,“有时候人们喜欢去做些超前的事情,但是需要强大的数据库的支撑。Google基因库为研究者们带来了海量的基因信息,所以这是解决新问题的最佳手段。”

相关文章

首款CRISPR基因编辑疗法距美国上市咫尺之遥

4月3日,VertexPharmaceuticals(Nasdaq:VRTX)和CRISPRTherapeutics(Nasdaq:CRSP)宣布完成了examglogeneautotemcel(ex......

深圳先进院:细胞命运决定机制的研究获进展

细胞分化使基因型相同的细胞产生在形态、结构和生理功能上差异的细胞。关于细胞分化过程的发生,经典表述认为细胞的基因功能以及它们形成的复杂调控网络在时空上控制了基因的表达量,从而编程了细胞命运决定(fat......

定量解析“基因开关”,探索细胞命运决定机制

细胞可以通过命运决定过程来不断适应环境变化,实现和完善其自身功能。理解细胞命运决定的具体机理对于回答复杂生命如何诞生、实现组织和器官再生、以及合成人工生命体等问题非常重要。北京时间3月24日,一项发表......

打开一个基因中的“藏粮密码”主效耐碱基因可增产约20%

“我国人多地少,在工业化和城镇化发展的背景下,确保18亿亩耕地红线,粮食安全生产存在巨大压力。如何破题?”“把边际土地,特别是盐碱地的作用发挥出来,就能大幅缓解这个压力。”3月22日,中国科学院院士李......

北大重庆大数据研究院将共建“基因智能大数据实验室”

18日在重庆召开的2023世界中联中医药大数据产业高峰论坛上,北京大学重庆大数据研究院与上海睿昂基因科技股份有限公司签署共建“基因智能大数据联合实验室”(以下简称实验室)战略合作协议,双方将发挥各自优......

华大基因2022年度业绩快报,利润同比下滑近42.57%

近日,深圳华大基因股份有限公司发布2022年度业绩快报,报告显示华大基因2022年度营业总收入约71.26亿元人民币,同比上年增加5.32%。2022年度营业利润约10.47亿元人民币,同比上年减少4......

基因组育种大数据计算新工具“天权”发布

近日,国际学术期刊《核酸研究》(NucleicAcidsResearch)发表了华中农业大学动物遗传育种团队开发的基因组育种大数据计算新工具HIBLUP,中文名为“天权”。相关论文被期刊评为“突破性进......

环境中致病菌毒力基因高通量检测获新进展

近日,中科院生态环境研究中心土壤环境科学与技术实验室朱永官院士团队在环境中致病菌毒力基因高通量检测方面取得新进展,相关研究成果以“VFG-Chip:Ahigh-throughputqPCRmicroa......

Science:新的定量方法来更好地定义并测定基因功能的缺陷

如今人们普遍认为,癌症是一种基因和基因功能获得性缺陷而诱发的一种疾病,近日,一篇发表在国际杂志Science上题为“Epigeneticsasamediatorofplasticityincancer......

TheLancet:对患者进行基因分析或能降低30%不良药物反应

近日,一篇发表在国际杂志TheLancet上题为“A12-genepharmacogeneticpaneltopreventadversedrugreactions:anopen-label,mult......