发布时间:2016-09-12 10:00 原文链接: 两斤DNA装下“全世界”现代数据存储技术瞄准基因序列

  对于Nick Goldman来说,在DNA中编码数据的想法始于一个笑话。

或许最多10年之后,没有人会再相信磁带储存。图片来源:Wes Fernandes

  那是2011年2月16日,Glodman和一些生物信息学领域的朋友在德国汉堡聊天,话题是他们如何才能储存全世界涌来的基因组序列和其他数据洪流。他记得当时谈话的科学家因为传统计算机技术成本昂贵和具有局限性而懊恼不已,他们开始开玩笑说或许可以尝试科幻方法。“我们想,‘有什么能阻止我们利用DNA储存信息呢?’”

  随后,笑声戛然而止。“那是恍然明悟的一刻。”Goldman说,他是英国辛克斯顿欧洲生物信息学研究所(EBI)的一名团队负责人,那时他们想到的是与硅基记忆芯片读写信息的微秒时间量程相比,DNA储存可能会非常缓慢。它可能需要花费数个小时,通过合成DNA链条以形成具体的基础模式来编码数据,还会花费更多时间利用一种测序机器恢复这些信息。但是如果采用DNA,整个人类基因组都能够装入人类肉眼看不见的一个细胞中。对于信息储存的纯粹密度来说,DNA可能是硅以外进行长期数量级信息储存的最好方式。

  “我们坐在酒吧里拿着餐巾纸和圆珠笔。”Goldman说,然后开始记录我们的想法:“需要做些什么让它发挥作用呢?”研究人员的最大担心是DNA合成和测序经常发生错误,而且比值高达每100个核苷酸基中就会出现一例错误。这会让大规模数据储存完全不可靠,除非他们能够找到一种可用的纠错方法。他们能够编码这些信息成为碱基对从而辨别并解除错误吗?“经过一个晚上的商讨。”Goldman说,“我们知道我们可以。”

  DNA数据储存

  Goldman和EBI的同事Ewan Birney将这一想法搬进了实验室,两年后,他们宣布成功利用DNA编码了5个文件,其中包括莎士比亚的十四行诗和一小段马丁·路德·金的《我有一个梦想》的演讲。而那时,美国哈佛大学生物学家George Church及其位于马萨诸塞州剑桥的团队已经公开了利用DNA编码的单独示范。但是当时EBI的文件为739千字节(kB),直到今年7月,来自微软和华盛顿大学的研究人员宣称编成200兆字节(MB)的文件之前,它一直是曾经编码的最大DNA档案。

  利用DNA作为储存介质的最新实验信号已经超越了基因组学的范畴:全世界正面临数据倾轧。到2020年,从天文学图像和期刊论文到YouTube视频,全球数据档案预计将达44万亿千兆字节(GB),是2013年信息储量的10倍。

  这正是为什么难以获得的数据现在需要依赖老式的磁盘记录永久档案的原因。这些信息媒介储存比硅的储存密度大得多,但是读起来却非常慢。然而,即便这一方法也变得日益不可持续,华盛顿特区美国情报先进研究计划署(IARPA)计算神经学家David Markowitz说。

  他表示,很难想象一个数据中心的磁带驱动器上拥有艾字节(10亿GB)的信息。这样的一个中心将需要10年间花费10亿美元来建造和运行,并且需要数亿瓦的电量。“分子信息储存具有将这些条件减少三个数量级的潜力。”Markowitz说。如果信息能被打包成类似大肠杆菌基因的密度,那些全球的信息储存需求可能只需要大约1公斤的DNA。

  实现这一潜在目标并不容易。在DNA能够作为传统储存技术的可行竞争者之前,研究人员需要克服从DNA编码信息可靠性和恢复用户需要的信息到让核苷酸链获得价格低廉、方便迅捷的一系列挑战。

  尽管如此,解决这些挑战的工作正在进行。北卡罗来纳州半导体研究公司(SRC)正在进行DNA信息储存工作。“10年来,我们一直在寻找硅以外的物质”进行数据储存,SRC主任及首席科学家Victor Zhirnov说,“它很难置换。”他说,但是DNA作为其中的一名具有实力的候选途径,“似乎很有可能实现”。

  长期记忆

  第一个用4个DNA碱基对绘制1和0等数据信息的人是艺术家Joe Davis,他在1988年曾与哈佛大学研究人员合作。他们在大肠杆菌中插入了DNA序列,编码了仅仅35个比特。在组成5×7的矩阵后,使所有的1均对应暗像素,所有的零均对应亮像素,形成了记录生活和女性故事的古德国诗歌。

  现在,Davis正在与Church的实验室合作,从2011年开始探索DNA数据储存。这个哈佛团队希望,这一应用有助于减少合成DNA的高成本,正如基因组学已经降低了测序成本那样。Church在2011年11月与现在加州大学洛杉矶分校工作的Sri Kosuri以及约翰斯·霍普金斯大学基因组专家Yuan Gao合作,进行了概念验证实验。该团队利用许多DNA短链编码了一本Church共同编著的659kB的书籍。每个短链的一部分都是一个地址,阐述了这些片段经过测序之后应该如何整理,而其余的短链则包含了数据。最终,在对这些链条进行测序之后,Kosuri、Church 和Gao发现了22处错误,对于可靠信息储存来说,这些错误显然过多。

  同时,在EBI,Goldman、Birney及其同事也在利用大量DNA链条编码其739kB的数据储存,其中包括图像、文本、视频文件以及Watson和Crick关于DNA双螺旋结构的一篇标志性论文的PDF文件。为了避免重复性的碱基和其他错误,ENI团队采用了更加复杂的方式。通过使用被25个碱基逐渐改变的相互重合的100个碱基长链,ENI科学家还确保碱基组件中都有不同的纠错以及相互对照版本。

  尽管如此,具有讽刺意味的是,他们依然丢失了25个碱基中的两个。然而,这些研究结果让Goldman相信,DNA拥有成为价格低廉、长期数据储存介质的潜力,那将需要极少的能量实现海量数据储存。“或许最多10年之后,没有人会再相信磁带储存。如果你需要保证文件复本的安全,一旦你能够将其写在DNA上,就可以把它丢在一个洞穴里忘掉它,直到你希望重新读取它的那一天。”

  新兴领域

  自从在2013年访问英国时听到Goldman谈起DNA储存之后,这种可能性已经吸引了华盛顿大学计算学家Luis Ceze和雷德蒙德微软研究公司的Karin Strauss的关注。“DNA的密度、稳定性以及成熟度让我们对它非常感兴趣。”Strauss说。

  在伊利诺伊大学香槟分校,计算学家Olgica Milenkovic及其同事已经开发出一种随机存取方式,可以重新编辑编码的数据。他们的方法可以在处理DNA长链两端的序列时储存数据。研究人员随后或是利用聚合酶链反应或是利用CRISPR-Cas9等方法挑选、增加以及重新编写DNA链条。

  DNA数据储存方面面临的其他挑战是规模化以及加速合成分子,Kosuri说,他承认因为这些原因,他本人对该方法并不看好。他回忆说,在哈佛大学做实验的初期,“我们做到了700kB。使其增加1000倍达到700MB,才是一张CD的容量”。而若要真正解决全世界的数据档案问题,至少需要拍字节的储存能力。“这并非不可能。”Kosuri说,“但是人们需要意识到这样大的规模是建立在提高百万倍的基础上。”而这肯定不容易。

  Goldman坚信这只是时间问题。“我们的估计是需要使其储存能力提高10万倍才能让这种技术的效益看得见,我们认为它非常可靠。”他说,“过去的表现或许不能说明什么。现在每一两年就会出现新的读取技术。六个数量级的增长对于基因组学来说只是小菜一碟。请拭目以待。”

相关文章

宠物克隆:“复活”一只宠物的代价,是无数只动物被虐杀

宠物克隆原理看上去很简单,取一块原本宠物的皮肤,在皮肤细胞里提取细胞核;从其它动物体内取一个卵细胞,去掉它的细胞核;再把新卵细胞植入到另一动物体内,直到孕育出一个新生命。取卵的过程是无比痛苦的,他们会......

独特人类基因进化是平衡行为

人类和黑猩猩的DNA仅百分之一不同。人类加速区域(HAR)是基因组的一部分,美国研究人员分析了数以千计的人类和黑猩猩HAR,发现人类进化过程中积累的许多变化具有相反的影响。研究结果近日发表在《神经元》......

特定基因突变促进心血管疾病发展

据发表在《自然·心血管研究》上的一项新研究,西班牙卡洛斯三世国家心血管研究中心(CNIC)的一个研究小组与美国研究机构合作,已经证明编码蛋白p53基因的获得性突变,将促进动脉粥样硬化性心血管疾病的发展......

基因揭示这些西伯利亚人具有高流动性

复旦大学生命科学学院青年研究员王轲和德国图宾根大学古生物学教授CosimoPosth等合作,报告了7500年前10个古人类的基因组数据,填补了早期从北亚穿越白令海峡迁徙到北美的人类古基因组数据的空白,......

中科院武汉植物园报道桃果实糖积累的机制

原文地址:http://news.sciencenet.cn/htmlnews/2023/1/492674.shtm果实糖分积累是园艺作物尤其果树的重要农艺性状。糖分决定果实的风味口感和营养品质,并可......

研究发现驯化选择水稻DNA寒害损伤修复机制及优异模块

农作物应对全球气候变化引起的异常温度需要具备优异耐受模块,品种设计需依赖细胞寒害感知防御“信号网络”“修复机制”的原理。 在前期研究中,中国科学院院士、中科院植物研究所研究员种康研究组在水稻......

科学家揭示基因转录终止机制

DNA是遗传信息的载体,遗传信息通过转录从DNA传递到RNA,随后通过翻译解码成蛋白质。基因是DNA遗传信息的编码单元,基因的正确解码需要执行基因转录的RNA聚合酶严谨识别基因的的起始序列(启动子)和......

科学家找到对抗甘薯小象甲的基因“武器”

你是否有过这样的经历?当你吃着甜甜的甘薯时,突然就咬到发苦的地方,特别令人恼火。“发苦是因为甘薯被甘薯小象甲咬过。”中国科学院华南植物园研究员侯兴亮介绍,“一方面是因为甘薯小象甲在甘薯里钻来钻去,留下......

狗拿耗子为哪般

你观察过狗狗的一些行为吗?它会被随风飘摇的塑料袋吓坏吗?会在陌生人来到家门时吠叫、躲藏或寻找你吗?会追着松鼠跑吗?作为人类最亲密的伙伴,狗的行为密码就蕴藏在基因中。一项近日发表于《细胞》的研究,通过解......

科研人员发现新的健康衰老调控基因

记者3日从中国科学院昆明动物研究所获悉,该所科研人员牵头发现一个新的健康衰老调控基因ATF7,该基因可通过延缓细胞衰老和降低老年个体的炎症水平,从而促进健康长寿。据介绍,慢性低度炎症是衰老的主要特征之......