发布时间:2021-02-03 11:14 原文链接: 长读长测序技术:拯救基因组组装项目

  随着高精度长读长测序技术的出现,基因组难以组装的状态正在改变。《Nature Methods》杂志上近日发表了一篇文章,介绍了基因组组装项目如何受益于这种技术。

  自测序技术问世以来,利用DNA序列的片段来组装人类、动植物或微生物的基因组就一直是难题。许多参考基因组都存在缺陷,如组装错误或存在缺口。人类参考基因组GRCh38就有数百个缺口,缺失了大约150 Mb的序列。

  随着高精度长读长测序技术的出现,这种状态正在改变。《Nature Methods》杂志上近日发表了一篇题为“Long road to long-read assembly”的文章,介绍了基因组组装项目如何受益于这种技术。

  01左中括号填补缺口左中括

  文章作者Vivien Marx指出,填补基因组上的缺口可以帮助人们比较基因组之间的差异。这些方法不仅适用于人类基因组,也适用于其他生物,比如微生物和脊椎动物。去年,“端粒到端粒联盟(T2T)”成员公布了激动人心的新进展。他们利用CHM13hTERT细胞系,组装了X染色体和8号染色体的完整序列。

  CHM13细胞来源于葡萄胎,具有单倍体人类基因组。联盟负责人之一Adam Phillippy表示:“当我们只需要组装一个基因组而不是两个基因组时,问题就大大简化了。”如今,他们已经几乎完成了整个CHM13基因组的组装,只剩下五个缺口。下一步打算完成二倍体人类基因组的从端粒到端粒组装。“从单倍体到二倍体,听起来并不困难,但实际上要复杂得多,”他说。

  02左中括号对付着丝粒左中括号

  着丝粒一直是极具挑战性的区域。在X染色体上,着丝粒的基本重复单元的长度为171 bp,而其串联重复序列正是12个单元的组合,长度约为2 kb。因为不容易克隆,这些卫星DNA的序列很难获得。T2T联盟另一名负责人Karen Miga表示,一些新的测序技术可以帮助他们实现目标,比如Oxford Nanopore和Pacific Biosciences。

  测序之后还需要组装。将着丝粒及其重复序列组装起来,有点像在玩一块蓝天的拼图,简直让人无从下手。丹纳法伯癌症研究所Heng Li实验室开发出了基因组组装工具hifiasm,能够对付着丝粒。同时,加州大学圣地亚哥分校的Pavel Pevzner实验室最近也开发出了组装着丝粒的算法centroFlye。他表示,centroFlye是“通过在蓝天中寻找一小片白云来进行组装”。

  03左中括号长长长读长左中括号

  Pacific Biosciences和Oxford Nanopore都推出了长读长测序技术,读长超过了10 kb。以往的数据显示,这些技术很容易出错,但Phillippy认为,现在的情况已经大不相同。PacBio在2019年推出了基于环状共有序列(CCS)的测序模式,生成了高度准确的HiFi reads。他表示,这种技术在检测单个分子上的准确性高达99.9%。同时,与五年前相比,纳米孔测序的准确度也大大提高。

  Pevzner认为,这两种技术都可以达到90%以上的准确度。“HiFi reads的错误率是每一千个核苷酸有几个错误。纳米孔的超长测序虽然没那么准确,但成本也较低。这种情况正在动态变化。”生物学家目前主要使用短读长技术,但他认为完整组装的未来属于长读长。

  04左中括号组装工具左中括

  文章也提到了一些常用的组装工具,如Falcon、Canu、wtdbg2等。不过在HiFi reads出现后,人们则主要采用HiCanu和hifiasm工具来进行基因组组装。此外,PacBio的IPA也是专为HiFi reads而优化的组装工具。

  hifiasm的开发者Heng Li也是T2T联盟的成员之一。他认为,准确的长读长技术正在帮助人们解析单倍型。“没多少人意识到我们今天产生的hifiasm/HiCanu组装的质量比一年前高多了,简直就是白天和黑夜的区别。”他表示:“组装领域的目标是实现二倍体样本的从端粒到端粒组装,然后是多倍体基因组和宏基因组,它们更难组装。”

  05左中括号泛基因组和宏基因组左中括

  如今,人们已经不再满足于个人基因组研究,而是转向了人类泛基因组(pangenome)研究,即人类群体基因序列的总和。研究人员认为,高度精确的从端粒到端粒组装可更好地了解人类的多样性以及对当地环境的适应。最近涌现出的许多软件工具可帮助人们从组装结果中找到基因组差异。

  对于宏基因组分析,研究人员往往将Illumina短片段与Oxford Nanopore长片段结合起来,并采用metaSPAdes和metaFlye等工具进行组装。利用这种方法,人们发现的细菌和古细菌数量增加了一倍以上,且数据表现出更大的系统发育多样性。

  总的来说,作者认为,高精度的长读长测序正在大大促进基因组组装项目。


相关文章

基因测序技术:就像考试做“问答题”

基因测序技术是人类探索生命奥秘的重要手段之一。随着测序技术的发展,通过测序技术对遗传信息的解码和基因组数据库的构建,人类不仅得以窥探生命的密码,更能从基因层面对人类疾病进行检测甚至干预。为进一步了解基......

聚焦生物医药领域,探讨前沿分析测试技术发展及应用

——生物医药前沿分析技术论坛在北京顺利召开2024年1月20日,生物医药前沿分析技术论坛在北京顺利召开。论坛由北京市科学技术研究院分析测试研究所(北京市理化分析测试中心)和北京市科学技术研究院前沿技术......

1442万,福建省农业科学院仪器采购项目公开招标

近日,福建省农业科学院近日发布了关于“福建省农业生物种质资源库项目种质资源相关仪器部分”的两则公开招标公告,公开采购高通量基因测序仪和农用软X射线仪等仪器,预算金额共计1442.0149万元。高通量基......

预算428万吉安市疾控中心采购三重四极杆气相色谱质谱联用仪

近日,吉安市疾病预防控制中心就三代基因测序仪、半自动核酸提取仪和三重四极杆气相色谱质谱联用仪、三合一多功能自动进样器进行公开招标,预算金额为428万元,详细信息如下:一、项目基本情况:项目编号:赣同创......

迄今最大全基因组测序数据公布有望带来新的诊断方法

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据,完成了这一有史以来最受瞩目的同类项目。英国生物银行首席研究员罗里·柯林斯表示,......

PacificBiosciences单分子实时测序

PacificBiosciences单分子实时测序PacificBiosciences单分子实时(SMRT)测序使用特殊的环接头,通过链置换扩增(SDA)或多置换扩增(MDA)从dsDNA片段中生成s......

DNA测序市场

DNA测序市场:快照DNA测序预计将在2021-2031年的预测期内显示出有希望的增长,因为它在微阵列和其他分析方法等各种应用中的执行。DNA测序具有成本效益,具有很高的准确性和速度,甚至可以从低样本......

DNA测序市场规模和份额分析增长趋势和预测(20232028)

DNA测序市场分析基准年的DNA测序市场价值104.0954亿美元,预计到预测期末将达到238.8565亿美元,复合年增长率为18.61%。COVID-19大流行对所研究的市场产生了积极影响,因为它增......

全球基因组测序市场展望与预测(20212026)

行业洞察2020年全球基因组测序市场规模为29亿美元,预计到2026年将达到50亿美元,2021-2026年的复合年增长率为9%。癌症病例的不断增加正在成比例地增加市场上基于测序的诊断和治疗方案的数量......

带您了解单分子测序技术

单分子测序技术,也被称为纳米测序技术,是通过纳米孔只允许一条链进入的方式,根据碱基的荧光或者电流阻断来识别碱基序列的一种新型测序技术。这种技术包括PacBio技术和Nanopore技术两种主要方法。P......