发布时间:2017-12-28 13:35 原文链接: 我科学家引入信息论刷新基因测序精度

  自从Alpha Go成了围棋界的No.1,“智能”的潜力被广而周知,尤其对于大量的重复性工作,写个“算法”让电脑“跑”,得出的结果说不定比人强。

   科学家不仅有足够大的脑洞,还有着非凡的执行力。这次是生物学者,他们借鉴了信息学科的思维,发明了基因测序的新方法。日前,一篇名为《基于信息理论来修正错误的高准确度荧光产生DNA测序方法》的论文在《自然·生物技术》上在线发表。研究者来自北京大学黄岩谊教授带领的团队。

   “这个设计很巧妙,”东南大学教授陆祖宏说,“或许在信息科学里是‘小伎俩’,但在生物学研究中是一种思维方式的突破,而且奏效了。”

   测序精准是“王道”

   和体育界的“更快、更高、更远”类似,基因测序界的“金标准”是“更快、更长、更正确、还不贵”。

   大名鼎鼎的“人类基因组计划”基于1代测序技术,耗时十余年测出一套完整的人类基因组密码,而利用现有的2代测序技术,这个时间可以缩短到半天内。

   “2代测序技术,又叫高通量测序技术,”陆祖宏介绍,它能够在一个生物芯片上一次完成上亿个反应。“每个反应一次测定一个碱基。”

   生物芯片上的反应单元非常小,几平方微米的芯片上会包含1000个待测DNA单链分子,在DNA聚合酶(促成单个碱基聚合)的作用下,单个碱基会按照配对规律合成已有DNA分子的互补链,每次合成一个,同时释放出荧光。不同的碱基(A、T、C、G)带有不同的荧光,检测到荧光的不同就能判断是什么碱基,进而读取DNA。

   然而,每个单元中1000个分子的合成很难同步,“这个分子合成到99个时,那个分子可能合成到101个,这样捕捉到的荧光波长将会有所差异,可信度显著下降,”陆祖宏说,因此,2代基因测序仪的单次“读长”目前的极限在200个碱基对(bp)。通过DNA二端测序能做到400个bp,但很难进一步提高。读得越长,测得序列的正确性就会越低。

   在人体基因测序领域,这是一对相差悬殊的数字:30亿、200。前者是人类基因组的碱基对数量,后者是目前测序准确度最高(99%)的2代基因测序仪的单次“读长”。可见以200为单位完成目标DNA的测序,不可避免会造成大量的误差。

   测序技术正在向着满足“金标准”的路上不断推进,而此次我国学者发表的ECC(纠错编码)测序法正是对现有手段的校正和补充。

   “软件推导”补硬件不足

   生物学的研究方法一直是所见即所得,这次引入了信息论的方法,利用冗余信息、通过计算得出准确结论,陆祖宏认为,ECC测序法是对上面提到的2代测序方法的完善,其基本原理与2代测序方法相一致,令人称道的是其打破思维定势,迂回计算出碱基信息。

   打个比方,要解答“甲乙丙丁分别住在哪个房子里,”之前的方式是直接开门看,ECC是通过测量得到一组逻辑题,诸如红房子在蓝房子的右边,白房子的左边;黄房子的主人来自香港,而且他的房子不在最左边,爱吃比萨的人住在爱喝矿泉水的人的隔壁……等等提示,通过计算最终判断出结论。

   “之前一个一个测,现在是一群一群测,每次采样量一样,但是采样方法不同了,单次看获得的信息更多,”陆祖宏说,冗余信息可以互为校验,将“精准”的努力更多地让“软件推导”去承担,弥补酶的均一性、信号捕捉等硬件上无法避免的不足。

   资料显示,ECC编码和解码策略已被广泛应用在信息通讯和存储等其他领域中,并被证实可以有效检测和纠正数据传输或存储时发生的错误。此次研究团队在测序技术中首次引入ECC,并自主合成了低错误率的荧光发生底物,二者结合在实验室搭建的原理样机上获得了单端测序超过200碱基读长无错误的实验结果。

   “BT与IT的结合越来越成为业界共识,”蒋慧说,就在12月初,谷歌发布了一款名为DeepVariant程序工具,称其拥有人工智能(AI)深度学习能力,将2代测序技术中的片段精确的拼接,更准确识别DNA序列中的突变。

   应用还有很长的路要走

   “基因测序仪很复杂,涉及到光机电、生化反应、软件计算等不同领域,”作为国内唯一自主生产基因测序仪的企业领头人,华大智能副总裁蒋慧感触颇深,她说,测序仪生产和制造的进入门槛很高。

   基因测序行业是有上下游链条的,“除了要生产出高精密的测序仪,还要配备有效的试剂盒,以及成套的解决方案,”蒋慧说,同时要具备与下游应用开发企业的承接能力。“测序仪就好比一款手机,要用得广,要能够搭载、兼容不同的‘APP’,即产前筛查、肿瘤检测等应用场景。”

   经过近5年的持续投资研发,目前具有临床测序仪量产能力的国产测序仪生产商只有华大基因一家,它的测序仪从研发到走向市场就是在一路“披荆斩棘”中走来。“我国造出自己的测序仪之后,受到过国际大公司的排挤,例如通过试剂、酶等的供应上实施封锁的方法。”陆祖宏说,新技术就算好,让市场“弃旧用新”的阻力却是很大的,尤其国外企业的龙头地位很难撼动。

   在巨大的阻力下,我国的测序仪产业虽步履蹒跚,但仍在崛起,除了黄岩谊团队宣布制造出样机之外,我国南方科技大学瀚海基因日前发布了全球最准三代基因测序仪。


相关文章

迄今最大全基因组测序数据公布有望带来新的诊断方法

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据,完成了这一有史以来最受瞩目的同类项目。英国生物银行首席研究员罗里·柯林斯表示,......

PacificBiosciences单分子实时测序

PacificBiosciences单分子实时测序PacificBiosciences单分子实时(SMRT)测序使用特殊的环接头,通过链置换扩增(SDA)或多置换扩增(MDA)从dsDNA片段中生成s......

DNA测序市场

DNA测序市场:快照DNA测序预计将在2021-2031年的预测期内显示出有希望的增长,因为它在微阵列和其他分析方法等各种应用中的执行。DNA测序具有成本效益,具有很高的准确性和速度,甚至可以从低样本......

DNA测序市场规模和份额分析增长趋势和预测(20232028)

DNA测序市场分析基准年的DNA测序市场价值104.0954亿美元,预计到预测期末将达到238.8565亿美元,复合年增长率为18.61%。COVID-19大流行对所研究的市场产生了积极影响,因为它增......

全球基因组测序市场展望与预测(20212026)

行业洞察2020年全球基因组测序市场规模为29亿美元,预计到2026年将达到50亿美元,2021-2026年的复合年增长率为9%。癌症病例的不断增加正在成比例地增加市场上基于测序的诊断和治疗方案的数量......

带您了解单分子测序技术

单分子测序技术,也被称为纳米测序技术,是通过纳米孔只允许一条链进入的方式,根据碱基的荧光或者电流阻断来识别碱基序列的一种新型测序技术。这种技术包括PacBio技术和Nanopore技术两种主要方法。P......

一二三四代测序如何分类。本文揭晓答案

作为生命科学及医疗产业“皇冠上的明珠”,基因测序仪的重要性不言而喻,其广泛运用于与健康相关的各类场景中,如孕产前筛查及遗传病检测、病原微生物诊断及溯源、肿瘤防治等领域都有广阔的应用场景,极大地助力了全......

第四代测序技术原理

以OxfordNanoporeTechnologies为代表的纳米孔测序技术与其他测序技术不同的是,它基于电信号而不是光信号。经历了三个主要的技术革新:一、单分子DNA从纳米孔通过;二、纳米孔上的酶对......

基因测序技术进化史

DNA上承载了关于我们的太多信息:发展史、祖先、特征、疾病易感性、甚至性格和命运。因此很多人迫不及待地想将DNA看得一清二楚。解码人类基因组的第一次郑重尝试是始于1990年的人类基因组计划。尽管合作和......

不同平台的二代测序技术

二代测序技术基于大规模平行测序技术(massiveparallelanalysis,MPS),它能同时完成测序模板互补链的合成和序列数据的获取。主要可以分成Roche454焦磷酸测序、Illumina......