发布时间:2016-05-18 17:43 原文链接: NatureMethods:DeNovo基因组序列组装的新方法

  对于de novo人类基因组序列组装而言,短读长简直意味着不可能的任务。不过,加州大学旧金山分校、BioNano Genomics和10X Genomics的研究人员近日开发出一种新的组装方法,它将short-read测序与10X的linked-read测序相结合。这项成果于近日发表在《Nature Methods》上。

  如今,测序人类基因组已并非难事,但如果要获得高质量的基因组序列组装,人们必须克服三大挑战:1) 几乎100%相同的重复序列,它们存在于大多数高等真核基因组中;2) 二倍体的DNA;3) 缺乏能够产生准确的长读取的低成本测序平台。

  去年,西奈山伊坎医学院的Matthew Pendleton去年开发出一种方法,将Illumina测序、PacBio测序和BioNano Genomics的基因组作图相结合,对HapMap样品NA12878进行了高质量的组装。不过,这种方法的缺点在于PacBio测序的成本相对较高,通量较低。

  于是,加州大学旧金山分校的Pui-Yan Kwok及其同事用10X Genomics的linked-read数据取代了Pacific Biosciences的long-read序列。在一项试验性研究中,他们利用这种方法来测序和组装HapMap项目的个体基因组,看看效果如何。

  这种新方法主要依靠两个平行过程。首先,利用SOAPdenovo短寡核苷酸分析软件将Illumina的序列组装成scaffold。为了让这些scaffold有序排列成更长的片段,研究人员调入10X GemCode平台所产生的序列数据,并利用fragScaff来产生新的scaffold。同时,他们利用BioNano Genomics的Irys系统来产生序列motif的物理图谱,之后结合10X scaffold来产生最终的混合组装图谱。然后,他们利用10X Long Ranger软件对混合组装的scaffold进行分相,并借助BioNano Genomics的图谱来分辨一些重复区域。

  在试验性研究中,研究人员利用这种方法对人类HapMap样品NA12878进行组装和分相。最初的Illumina组装产生了超过14,000个scaffold,而N50为0.59 Mb。在混合组装后,scaffold数量降为170个,而N50大小达到33.5 Mb,相对之前有57倍的改善。

  与参考基因组相比,研究人员发现他们的组装结果比2011年发表的ALL-PATHS组装更准确,与Pendleton等人的方法有95.2%相似。此外,他们还指出,95.7%的外显子存在于他们的新组装中。

  尽管Kwok及其同事认为这种方法是一种改进,但也存在一些局限。例如,10X的方法依赖于高分子量DNA的制备,这对长期保存的样品而言很难做到。另外,linked-read是通过50-100 kb分子的随机k-mer扩增产生的,但这些分子不一定北扩增。因此,人们需要产生不同大小的多个测序文库,这增加了工作量。

  “通过这个原理验证研究,我们证明了使用这三组互补的作图-测序数据能克服之前的限制,而普通实验室可在短时间内以合理的成本平行生成这些数据,”作者在文中写道。

相关文章

哺乳动物“共同祖先”基因组重建完成

从鸭嘴兽到蓝鲸,每一种现代哺乳动物都是生活在大约1.8亿年前的“共同祖先”的后裔。人们对“共同祖先”知之甚少,现在,一个国际研究小组通过计算重建了其基因组。该成果将发表在《美国国家科学院院刊》上,对理......

我国科学家开发高效基因组序列分析工具

人类的疾病易感性和生理特征等常见性状的差异,往往由DNA序列变化造成,这些DNA片段缺失、增加、异位等变化被统称为遗传变异。全基因组关联研究(Genome-WideAssociationStudy,G......

史上最全小麦基因组序列图集问世

  据最新一期《自然》杂志报道,加拿大萨斯喀彻温大学领导的国际团队在一项对全球小麦生产具有里程碑意义的研究——10+基因组计划中,对代表全球育种计划的15个小麦品种的基因组进行了测......

新型抗小麦白粉病基因被找到

  小麦白粉病是严重威胁我国小麦生产的重要病害之一。推广抗病品种是防治该病最经济有效的措施,育种上主要利用全生育期抗性及成株期抗性基因。然而单一抗源抗性的频繁丧失,使育种工作总是在......

新发地的新冠病毒基因组序列是什么样的?中疾控公布了

据中国疾病预防控制中心网站消息,6月18日晚,中国疾病预防控制中心通过“新型冠状病毒国家科技资源服务系统”正式发布2020年6月北京新发地新冠疫情及病毒基因组序列数据。三条数据来自北京市确诊病例基因组......

中国新型冠状病毒的基因组序列

《自然》杂志2月3日发表了新型冠状病毒的基因组序列(论文:AnewcoronavirusassociatedwithhumanrespiratorydiseaseinChina),病毒样本系从一名曾在......

我率先破译花生栽培种全基因组

近日,福建农林大学组织的“花生栽培种全基因组序列破译”成果认证会上,该研究组在国际上首次破译了花生栽培种基因组,成果总体处于国际同类研究领先水平。图片来源于网络花生是世界重要油料作物和第二大植物蛋白来......

基因组研究发现结肠癌发病机理

日本理化学研究所基因组序列分析项目负责人中川英刀和兵库县医科大学教授池内浩基的联合研究小组,对炎症性肠疾病转化结肠癌患者的全基因组进行解析,发现了结肠癌发病机理。该研究成果将于近日发表在美国《Onco......

科学家们在非洲人种基因组中找到了肥胖特异性基因

在最近的一项研究中,来自美国NIH,国家人类基因组研究所的研究者们首次分析了非洲人以及非洲裔美国人的基因组序列,发现其中有百分之一的人群携带有患肥胖症的基因在,这一结果能够解释为什么肥胖症总是具有家族......

蔬菜中心:绘成世界首张西瓜基因组序列图谱

我国是世界第一西瓜生产与消费大国,但是人们却始终未能从外到内了解它,直到2013年1月,国际学术顶级刊物《自然·遗传学》发表了世界首张西瓜基因组序列图谱(影响因子35.532),标志着人类成功破译了西......