读这篇文章,你无疑会感到有些似曾相识的感觉。毕竟,人类基因组参考在2000年、2001年和2003年都被宣布“完成”。
但是从那时起,任何使用过参考资料的科学家都知道,从来没有一个完整的人类基因组测序。直到现在。
端粒到端粒(T2T)联盟是一个由国家人类基因组研究所和其他几十个机构的科学家组成的大型团队,发布了一份名为“The complete sequence of a human genome”的预印本文章。主要作者Sergey Nurk、Sergey Koren、Arang Rhie和Mikko Rautiainen,以及通讯作者Evan Eichler、Karen Miga和Adam Phillippy以及许多合作者现在已经克服了空白和错误,交付了他们所称的“第一个真正完整的人类参考基因组”。
这项巨大的努力结合了一些尖端技术,包括PacBio的HiFi测序,以一个完整的葡萄胎(CHM13)为基础,产生了一个无空白的、完整的单倍体人类基因组组装。其目标是创建一种具有全面、可靠的基因组数据的新资源,以避免最新GRCh38参考装配仍然存在的缺陷和错误。“T2T-CHM13参考装配消除了一个20年的障碍,该障碍在基于序列的分析中隐藏了8%的基因组,包括所有的着丝粒区域和5条人类染色体的整个短臂,”Nurk等人报道。
这项新的参考文献“包括所有22个常染色体和X染色体的无间隙装配,纠正了许多错误,并引入了近2亿bp的新序列,包含2226个同源基因拷贝,其中115种被预测为蛋白质编码,作者补充说,这代表着“人类参考基因组自首次发布以来最大的进步。”
HiFi测序是这一成就的关键。科学家们注意到,HiFi测序具有“20kbp的读长长度和99.9%的中值精度,这导致了前所未有的组装精度,与标准组装方法相对较小的调整。……高保真测序擅长于区分细微分化的重复拷贝或单倍型。
该团队最初的策略是使用噪声超长纳米孔读取来构建组装主干,然后用其他平台打磨。但他们随后转而使用精确而长时间的高保真读取。他们报告说:“我们转向了一种新的策略,利用结合的准确性和HiFi读取长度,使高度重复的着丝粒卫星阵列和密切相关的片段复制能够组装。该组装基于一个由HiFi读取构建的字符串图,其平均共识准确性在Q67和Q73之间,远远超过Q40最初定义的‘完成’序列”。
科学家们建议,在“所有需要线性参考序列的研究”中,新组装的Y染色体序列将在不久的将来被加入,应该用来取代GRCh38参考序列。他们指出,GRCh38“更完整,更具有代表性,而且比它的前身准确,大大增加了人类基因组中已知基因的数量和重复次数”。
该团队还指出,使用新的参考文献对短读公共数据集(如1000个基因组项目)进行再分析,已经显示出与GRCh38参考文献相比的改进,而且考虑到更完整的参考基因组,新的表型关联应该被期待。
作者写道:“人类基因组端粒到端粒的完整组装标志着基因组学的新时代,没有一个基因组区域是无法触及的。高度精确的长读测序,结合量身定制的算法,保证了个体单倍型的从头组装和复杂结构变异的序列级分辨率。这将需要按照人类泛基因组参照协会的计划,对人类二倍体基因组进行常规和完整的从头组装。”
最终,他们预计高度精确的长读测序将导致“高质量、完整的参考单倍型的集合,将使该领域从单一的线性参考转向捕捉人类遗传变异的全部多样性的参考泛基因组,”该团队报告说。“理想情况下,每个基因组都可以以这里达到的质量组装,因为通过短读重测序方法恢复的小变异只代表整个基因组变异的一小部分。”
v
• 在美国人类遗传学会(ASHG)年会上,因美纳5碱基解决方案的早期试用客户——伦敦健康科学中心研究所将展示该技术在加速罕见病病例解析方面的强大潜力。• 因美纳专有的5碱基化学技术......
人类基因组中存在大量具有"跳跃"能力的逆转座子(retrotransposon)序列。在胚胎发育早期、免疫和神经系统等特定阶段和环境下,它们会被激活,发挥重要生理功能;在病毒感染、......
橡胶树是天然橡胶的主要来源。“橡胶树育种面临的主要困难在于周期长和效率低,通过常规育种方法将多抗、高产性状聚合往往需要30~40年。”中国热带农业科学院橡胶研究所研究员程汉告诉《中国科学报》。然而,目......
记者宋喜群、冯帆从山东农业大学获悉,该校农学院教授孔令让研究团队首次组装了小麦远缘杂交常用物种中间偃麦草和鹅观草染色体水平的高质量基因组序列,解析了二者基因组结构差异与独立多倍化演化路径,对两者携带的......
近日,中国农业科学院烟草研究所烟草功能基因组创新团队发现烟草分枝发育“开关基因”,预示着未来作物株型调控有了新靶点。相关研究成果发表在《植物生物技术》(PlantBiotechnologyJourna......
薇甘菊作为全球十大最具危害的恶性入侵杂草之一,以其惊人的繁殖速度和强大的环境适应性,在亚洲、太平洋地区及中国华南地区造成严重生态破坏。然而,其基因组层面的适应性进化机制长期未被系统解析,制约了科学防控......
近日,中国科学院大连化学物理研究所研究员周雍进团队与上海交通大学副教授鲁洪中合作,在酵母系统生物学研究中取得新进展。研究团队通过整合分析全球1807株酿酒酵母菌株的基因组与生态位数据,构建了高覆盖度的......
近日,中国农业科学院农业基因组研究所农业基因编辑技术创新团队深入解析了中亚野猪种群在跨越欧亚大陆百万年的迁徙历程中适应环境的独特遗传密码,为理解大型哺乳动物如何应对环境变化提供了全新视角。相关研究成果......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......