发布时间:2014-10-27 00:00 原文链接: Biotechniques:新一代测序中的缺口填补

  在完成的基因组的复兴时代,科学家使用由第三代测序技术提供的长读取,来填补基因组装配中的缺口(gap)。新一代测序能赶得上吗?

  新一代测序,可让科学家们以比Sanger测序更快的速度和更低的价格,进行基因组测序,为1000美元基因组测序铺平了道路。但是这种方法牺牲了长读取速度,将平均读长减少至大约100个碱基对,而不是Sanger测序的800-900个碱基对。短的读取长度使得基因组装配更加困难,因为要产生可比较的装配,就需要增加覆盖范围,即,更多的重叠序列读长。

  但是更深的覆盖范围并不能弥补某些问题。对于从头装配(de novo assembly)来说,比读取长度更长的重复序列会产生缺口,从而造成近年来比以往更多的分散组装。因此,更难检测到重复区域中的变异,这对于理解某些疾病可能是很重要的。

  贝勒医学院人类基因组测序中心的遗传学家Kim Worley称:“关于短的读取数据,令人沮丧的是,在100个碱基对的读长内没有大量的信息含量。”她指出,目前的恒河猴(一种重要的医学动物模型)基因组草图,包含其基因模型高达20%的序列缺口。

  她说:“我们已经完成了人类基因组和小鼠基因组测序。但是即使这些完成的基因组,也有不完全连续和正确的区域,这些数据的用户总是不满意这些区域。”

  为了解决这个问题,Worley及其同事借助于Pacific Biosciences (PacBio) RS平台,第三代测序技术,可以进行实时单分子测序反应。该系统产生的平均读取可跨度几千个碱基,在某些情况下,最大读取长度可达到30,000个碱基。

  这些长的序列读长,可简化基因组装配,因为它们可以跨越重复区域,并且,因为不需要源DNA的扩增,某些测序假象(artifacts)和基因组覆盖偏差也有所减少。因为PacBio RS平台产生长的读取,而没有GC偏差或系统误差,它是唯一适合于升级基因组装配的技术。

  先前在《PLoS ONE》的一篇报道中,Worley和她的同事们开发了一种自动化的软件工具,称为PBJelly,它可将长的PacBio读取排列成装配草图,以关闭或改善缺口,同时保留注释。通过将这种方法应用于四种基因组――一种模拟的黑腹果蝇(Drosophila melanogaster)基因组、拟暗果蝇(Drosophila pseudoobscura)的版本2草图、Assemblathon 2.0虎皮鹦鹉数据库的装配、乌黑白眉猴基因组的初步装配、研究人员解决了63%到99%的缺口,并能关闭32%到69%,提高12%到63%。

  PacBio首席科学官Jonas Korlach说:“我们正在经历一个完成基因组的复兴时代。回到Sanger测序年代这是真正的规范,但是当新一代测序到来时,它几乎被抛弃了,因为用Sange测序来关闭这些基因组不可能,或者说很难处理。”

  追赶

  原则上,PBJelly可以应用于任何平台产生的长序列读取。在新一代测序公司赶上PacBio的读取长度时,这种特征在未来可能是很重要的。

  在这个方向的一个举措是,Illumina对San Francisco-based startup Moleculo的收购。Moleculo开发的技术,允许我们在标准的新一代测序Illumina系统上对大的DNA片段进行测序,随后装配成合成长读取。来自每个分子的短序列读取被分别装配,最终的结果是所有片段的一个完整序列。基本上,短的读取数据被重建成长的读取。

  在国际植物和动物基因组会议上,一组科学家报道称,Moleculo技术可以利用Illumina HiSeq2000平台,产生长的、精确的DNA测序读取,跨越1.5-15千碱基对。

  长读取技术的另外一个例子是454 GS FLX+系统,它可以产生1000多个碱基对的读取。现在,一个研究财团正在利用这种测序技术,分析和装配RP11人类参考基因组,这是关闭缺口和发现基因组序列中新基因的一部分努力。

  454生命科学(罗氏公司)研究和开发副总裁Todd Arnold称:“454最出名的事情之一是,它具有最高的质量和最长的测序读取。”读长和通量只会变得更好,他说:“我们要争取的是,当我们增加读长的时候,还能保持我们的质量分,因为这对于我们的客户是非常重要的。”

  但是根据Korlach介绍,其他现有的技术将永远无法赶上PacBio。他说:“有基本的技术差异和限制,使其他商用技术不能提供我们可以提供的连续单个读取长度。”

  即便如此,PacBio长读取技术的一个缺点是它的高错误率。虽然可以通过建立共识序列,获得高精确度的测序结果,但PacBio RS仪器可产生的单次读取,平均只有87%到89%的核苷酸准确性。

  公司产品管理高级总监Edwin Hauw说:“我们正在致力于改进这种情况,但是在很长一段时间内,精确度将可能会低于其他现有技术,因为我们的技术基本上是基于单分子的实时检测。”

  测试长读取

  在东京大学,计算生物学家Michiaki Hamada并不太在意那些错误率。他说:“在我看来,这些高错误率并不会引起严重的问题,因为大多数的误差,可以使用具有低错误率的短读取来纠正,例如Illumina测序仪产生的读取。”

  在一项研究中,Hamada和他的团队开发出一种读长模拟器,称为PBSIM,可捕捉PacBio读长的关键特征。Hamada说:“我们的长期研究目标是,开发一种de novo装配器,用于PacBio等测序仪产生的长读取。但是,没有可用的模拟器,靶定特定一代的PacBio文库。”

  在去年《Bioinformatics》的一项报道中,Hamada和他的研究团队使用PBSIM分析了13个PacBio数据集。在对PacBio读长进行混合纠错和组装测试后,他们发现,所获得的广泛装配结果,具有至少15×的连续读长覆盖深度,结合至少30×的圆形共识序列覆盖深度。Hamada说:“PBSIM不仅可用于评估PacBio测序仪的装配器,而且还可用于测序的实验设计。”

  最后,因为参考基因组中的这些缺口,可能包含疾病相关基因,因此,利用长读取技术可以对临床领域产生巨大的影响。例如,在他们的研究中,Arnold及其同事确定了一个区域,可能参与了肿瘤的发展。Arnold说:“有证据表明,这个基因是由更早的RNA序列数据产生,但是它并没有出现在参考基因组中,所以重新测序的任何人都不会看到它。参考文库越全面,你就越能够以积极的方式使用这些数据。”

相关文章

一生中患病的几率或可预测,十种慢性病遗传风险估算更接近临床

通过分析基因组中数百万个微小的遗传差异,就可预测一个人一生中患某种疾病的几率。在过去的10年中,研究人员为数十种疾病制定了风险评分,希望有一天患者能利用这些信息来降低患病风险。在《自然·医学》杂志最新......

揭秘基因组“暗物质”

记国家自然科学基金重大研究计划“基因信息传递过程中非编码RNA的调控作用机制”在人类遗传信息传递过程中,非编码RNA不参与编码蛋白质,占全部RNA的98%,如同宇宙中神秘的“暗物质”,是生命活动调控的......

构建水稻基因组倒位变异图谱

近日,中国农业科学院深圳农业基因组研究所联合国内多家单位发布了迄今为止最大的水稻群体水平倒位变异图谱,并挖掘获得了新的水稻耐热优异等位基因,该研究对水稻育种改良具有重要意义。相关研究成果发表在《科学通......

基因组精确注释新方法:增强子鉴定新技术

近日,中国农业科学院深圳农业基因组研究所动物功能基因组学创新团队研发出增强子鉴定新技术。该技术与传统技术相比,平均分辨率提高了约10倍,为基因组的精确注释提供了新方法。相关研究成果发表在《核酸研究》(......

迈向CRISPR2.0,下一代基因编辑技术方兴未艾

美国食品药品监督管理局(FDA)本月稍早时间宣布,批准CRISPR/Cas9基因编辑疗法Casgevy上市,用于治疗12岁及以上镰状细胞贫血病患者。这是FDA批准的首款CRISPR基因编辑疗法。而11......

瑞孚迪:改变千万新生命——全基因组测序在新生儿筛查中的应用

导读:这项技术可以及早发现那些可能对患儿生命产生重大影响的罕见疾病。     瑞孚迪的这项首创研究证明了全基因组测序在对看似健康的新生儿的筛查中存在重......

科学家解析百余“神奇蘑菇”基因组以培育新品种

科学家收集了几十种“神奇蘑菇”的基因组数据,以了解驯化和培养是如何改变它们的,从而培育新品种蘑菇。相关研究近日发表于《当代生物学》。裸盖菇的商业品种缺乏遗传多样性,因为它们被驯化为人类使用。而澳大利亚......

万种原生生物基因组计划取得阶段性进展

原生生物(Protist)是一大类单细胞真核生物的集合,包括单细胞真核藻类和原生动物等,组成了原生生物界。原生生物具有高度多样性,广泛分布于各类水环境中,在生态平衡、物质和能量循环、环境健康、动植物疾......

俄罗斯科学家参与创建基因组数据统一平台

来自俄罗斯、美国、土耳其和欧洲的科学家开发了一个Shambhala平台,可将大量基因活性水平的大数据结合起来。该数据库的创建将使科学家能够将不同实验中兼容性较差的数据结合起来。此项成果发表于《分子生物......

中国科研团队研发出精准检测评估基因组组装新工具

近年来,随着基因测序技术和算法不断发展,大量物种基因组被陆续测序和组装,为相关研究和应用提供重要遗传信息。因此,如何精准检测评估基因组组装质量高低、避免组装错误等非常关键,也备受关注。记者19日从中国......