发布时间:2020-07-21 13:17 原文链接: 下一代测序技术将改变生物学现状(二)

最新的新一代测序仪操作只需一个人,24小时内可产生与几百台桑格毛细管测序仪同样多的序列数据。

此外,样品中DNA损伤与常温贮藏的状态以及新一代测序误差等因素往往超过了序列变异,因此很难确定样品来源于现代人类还是古穴人。相比较而言,断言长毛象的某一特定顺序是来源于古代标本,而不是现代污染物更容易,因为现代大象不像人类会经常处在实验室环境中。要在基因组范围内得到古代哺乳动物真正的序列,需要对某一区域进行反复的分析或者结合多种方法来确定其来源,这又要求大量削减成本来额外开展该项目。如果能完成这一项目而且能突破为复杂的多来源的DNA混合物测序的难题,将使测序地球上的任何生态系统成为可能,它也为测序至少十万年前的古代动植物打开了一扇窗户,这些都远远超出了我们以前的预想。

新一代测序仪已被用来再测序先前公布的参考细胞株,同时它也首次被允许查找基因组水平上的所有突变。在2005年,Velicer[14]等人首次从一种进化了1000代的结核分枝杆菌株[13]的基因组(9Mb)上发现了所有的突变体,同时也研究确定了该菌株上的耐药性等位基因。从这些早期的成果中,人们清楚地看到,新技术虽然能发现新的基因突变[14],但是它也必须解决许多测序中出现的错误,如焦磷酸测序时出现的同聚物干扰和阅读短片段时3'端序列迅速降解等问题。

初步的解决方法是联合运用桑格和焦磷酸测序数据[15]。不管进行何种项目,只运用桑格技术,其人力和财力的消耗将是巨大的。许多实验室现在要么只依靠新一代测序数据,要么结合焦磷酸测序法阅读长片段与illumina的solexa低营运成本的优势,要么应用生物系统的SOLiD平台,独自来考察各种体系的性能。随着更多有效的非桑格测序方法的发明,现在已经能评估新一代测序的准确性和评估绝大多数公布的桑格数据的正确性。

大量生产密切相关的有机体的序列数据推动了再测序的应用。所谓再测序,就是以不同方式处理序列数据而不是重新组装基因组。再测序以一个参考序列做对照,对目标区域进行8-12次排序,排序次数比从头组装基因组(25-70次)少得多。

研究表明用这种方法能够测序10个哺乳动物线粒体基因组[16],从而使群体遗传学能够建立在完整的线粒体基因组而不是短序列片段研究的基础上。目前,许多微生物测序项目已在开展,这将不仅有利于扩大可用的基因组数据库,而且还使许多在基因组水平上比较基因型和表现型的研究成为可能。

甚至,研究目前尚未测序的生物体也能应用新一代测序法,直接从序列水平上破译细胞的转录子。在许多方面,用基因序列来表示转录子的特性优于用基因芯片表示。最重要的是,在排序前并不需要一定了解基因序列方面的知识,因为可以借助计算机比照数据库中最接近的参考序列,从而得到转录子序列。因此,转录子序列的获得将会给生命科学带来革命性的进展。例如,参考豆科植物meticago truncatula时代的基因组和植物标本Arabidopsis thaliana[17],科学家能够为Zea mays (玉米)[18]的cDNA排序,而且发现了大量以前未描述的序列标签。

类似转录组学(transcriptomics)方法可以避免巨大基因组所造成的问题。尽管桑格技术已经成功完成病毒,微生物和大型哺乳动物的测序计划,但还是留下一个问题——无法解析多倍体植物以及其后代的基因组。如小麦有16Gb的六倍体基因组,这些巨大的基因组,往往存在于农作物中,仅利用旧测序法是无法得到其序列的。然而,应用现在已证明的概念——新一代已表达序列标志测序法花费低得多,就至少能在功能水平上对植物基因组进行评估[18]。

最后,新一代测序法的应用与医学领域密切相关。例如在癌症遗传学方面的应用,对于某些情况下用桑格技术不能检测的癌基因[19],现在应用超深测序法(ultra-deep sequencing)就可在组织中检测到。当桑格技术主要用来分析700bp以上的片段时,新一代测序法利用其阅读片段短的特点,在测序领域得到重用。由于癌症遗传学不遵守孟德尔遗传定律,激光捕获显微切割技术(laser-capture microdissection)用于收集相关等位基因而且必须使用PCR产物和/或扩增子序列定向,这样避免了传统的克隆及PCR误差。

虽然新一代测序仪已经应用于多项研究,但是有许多不足有待科学家与工程师们进一步改进。首先是降低成本:若要实现进行个人基因组研究的愿望,减少1-2个订单的规模是必要的,个人的基因组再测序的目标花费为1000美元。此外,降低测序错误率,这不仅是为了所有新一代测序技术的发展,而且还为了在不久的将来桑格测序技术能继续被采用。今后可能会采用特定的DNA聚合酶发射光波的形式直接读取DNA序列,但即使有了这些改进,我们还是不大可能看到DNA序列翻译成机器可读代码。价格下降,数据量有可能会飞涨,这就会造成解析瓶颈。因此,大部分由未来新型测序仪器提供的数据增量,将抵消生物信息学方面增加的人力和财力消耗。

在许多生命科学家认为后基因组学研究已经到来的时候,在短短不到两年的时间里出版了1000多篇相关科研论文,新一代测序已显示出巨大的潜力。它也使得基因组学返回到由单个科学家或小型科研单位来研究的方式,事实证明,大多数的新一代测序法论文来源于小型研究个体而非基因组中心。在不久的将来往回看,我们肯定会惊讶为什么最初新测序技术在科学界乃至商业界不受欢迎。当第三代的测序仪器被推广的时候,我们可从中窥探到创新能打破桑格技术垄断测序市场30多年的格局。


参考文献:
[1]Sanger, F. et al. Nature 24, 687–695 (1977).
[2]Sanger, F., Nicklen, S. & Coulson, A.R. Proc. Natl. Acad. Sci. USA 74, 5463–5467 (1977).
[3]Maxam, A.M. & Gilbert, W. Proc. Natl. Acad. Sci. USA 74, 560–564 (1977).
[4]Sanger, F. & Coulson, A.R. J. Mol. Biol. 94, 441–448 (1975).
[5]Margulies, M. et al. Nature 437, 376–380 (2005).
[6]Shendure, J. et al. Science 309, 1728–1732 (2005).
[7]Edwards, R.A. et al. BMC Genomics 7, 57 (2006).
[8]Sogin, M.L. et al. Proc. Natl. Acad. Sci. USA 103, 12115–12120 (2006).
[9]Angly, F.E. et al. PLoS Biol. 4, 2121–2131 (2006).
[10]Poinar, H.N. et al. Science 311, 392–394 (2006).
[11]Green, R.E. et al. Nature 444, 330–336 (2006).
[12]Noonan, J.P. et al. Science 314, 1113–1118 (2006).
[13]Andries, K. et al. Science 307, 223–227 (2005).
[14]Velicer, G.J. et al. Proc. Natl. Acad. Sci. USA 103, 8107–8112 (2006).
[15]Goldberg, S.M. et al. Proc. Natl. Acad. Sci. USA 103, 11240–11245 (2006).
[16]Gilbert, M.T.P. et al. Science 317, 1927–1930 (2007).
[17]Cheung, F. et al. BMC Genomics 7, 272 (2006).
[18]Ohtsu, K. et al. Plant J. 52, 391–404 (2007).
[19]Thomas, R.K. et al. Nat. Genet. 39, 347–351 (2007).