发布时间:2014-07-11 16:39 原文链接: 体外转录测序揭示RNAseq的终极误差

  高通量RNA测序(RNA-seq)是了解转录调控的一种强大技术。利用RNA-seq,我们不仅可以更好地进行传统的基因差异表达分析,而且还可以全面地研究可变剪接、RNA编辑、等位基因特异性表达和确定新的转录本(编码RNA和非编码RNA)。

  与更成熟的、以RNA表达分析为基础的微阵列相反,RNA-seq的灵活性可让研究人员针对不同的目标(例如据腺苷酸化转录本、小RNA测序、总RNA测序等),开发出许多不同的方案。然而,这种灵活性同样可能有复杂的技术偏差,因为研究人员经常使用不同的方法,进行RNA提取、大小选择、片段化、转换为cDNA、扩增和最后测序。

  尽管在生成和分析RNA序列数据方面已经取得了进展,但是我们对于各种方案所引入的技术偏差了解相对较少。了解这些偏差对于差异分析至关重要,以避免实验假象并实现这一强大技术的所有潜能。

  研究人员一直都在试图了解这些误差,以往的工作确定了几个来源,包括GC含量和PCR富集、通过随机引物的反转录启动、在边合成边测序反应中引入的读长误差、以及各种核糖体RNA(rRNA)subtraction方法引起的偏差。揭示这些偏差来源的研究,通常使用计算方法对现有的测序数据进行分析,以评估各种测序技术和文库构建的性能。这种方法的一个缺点是,它可能很难知道覆盖中的异常现象是自然存在还是由技术问题引起。例如,几乎所有的 RNA-seq研究有外显子内覆盖的差异,这可能来自于共有外显子部分的自然发生的剪接变体,或者可能是由文库构建或测序过程中的技术误差引起。

  考虑到研究人员正在不断开发新的测序方法和文库构建方案,我们需要一种方法来评估该技术中每种新方案所引起的技术偏差。一种有吸引力的选择是,从已在体外转录(vitro transcribed,IVT)自cDNA克隆的RNA,来生成文库,其中每个碱基的核苷酸序列是已知的,剪接模式被建立并不能违反,转录本之间的表达水平已知是一致的。

  因此,在覆盖或表达中任何观察到的偏差,一定是技术性的,而非生物性的。这是计算机研究人员通常用来开发和评估比对算法的模拟数据的实验对应物。 2011年,Jiang及其同事使用类似的方法,分析了来自于枯草杆菌(Bacillus subtilis)的96个合成序列或深海喷口微生物Methanocaldococcus jannaschii基因组,这些生物没有RNA剪接或聚腺苷酸化。然而,这项工作的重点是构建一套有用的标准,能用于下游分析,而不是探索一组复杂哺乳动物样本中的文库构建偏差。

  最近,美国宾夕法尼亚大学、土耳其科克大学、美国三角研究园和约翰霍普金斯大学的研究人员,共同在国际生物学权威期刊《Genome Biology》发表的一项研究中,提出并应用IVT-seq,来更好地理解RNA-seq中出现的偏差。简而言之,就是首先产生、汇集单个质粒,并进行体外转录。其次,将这种RNA与复杂的小鼠总RNA以不同的浓度混合,然后在Illumina平台上,利用两种最常见的RNA测序方案(polyA seq或total RNA seq)进行测序。

  研究人员在大多数IVT转录本中发现了覆盖偏差,超过50%在转录本覆盖范围内表现出超过2倍的变化,10%具有大于10倍的、由文库准备和测序引起的差异。此外,研究人员发现6%以上的IVT转录本包含高的、不可预测的测序覆盖区域,它们在样本之间显著不同。这些偏差在复制之间是高度可重复的,表明外显子水平的量化可能是不可取的。

  此外,研究人员利用几种不同的RNA选择方法(rRNA去除、polyA选择和非选择),构建了来自原始质粒模板的测序文库。他们发现,rRNA去除和 polyA选择是这种覆盖偏差的一个重要原因,计算分析表明,转录本代表性差的区域与低复杂度的序列相关。总之,这些结果,IVT-seq方法用于描述和识别测序技术中的覆盖偏差源是实用的。

相关文章

降本提效!我团队研制出系列牛用基因芯片

记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......

新突破!便携式测序设备助阵,2小时内可诊断脑肿瘤

英国研究人员在新一期美国《神经肿瘤学杂志》上发表论文介绍,他们新开发出一种超快速脑肿瘤基因诊断方法,可以将脑肿瘤的诊断时间从此前的6至8周缩短至2小时。这种脑肿瘤基因诊断方法由英国诺丁汉大学等机构的研......

重大突破!新加坡发布长读长RNA测序数据集SGNEx

由新加坡科技研究局基因组研究所领导的科学家团队,发布了迄今全球最大、最全面的长读长RNA测序数据集之一——新加坡纳米孔表达数据集(SG-NEx)。这一成果有望解决疾病研究中长期存在的技术瓶颈,使研究人......

猿类基因组测序为人类进化研究提供“里程碑”视角

经过20多年的努力,科研人员成功地对6种现存猿类的基因组进行了完整测序,为研究人类进化提供了近距离视角,这被英国《自然》杂志称为“遗传学的一个里程碑”。123名来自多个国家和地区的科研人员组成的团队9......

预算887.8万昆明医科大学第二附属医院2025年05月(至)2025年06月政府采购意向

昆明医科大学第二附属医院2025年05月(至)2025年06月政府采购意向为便于供应商及时了解政府采购信息,根据《财政部关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)等有关规定,现将昆......

因美纳被制裁背后:一家测序巨头的中国困局

事件焦点:为什么是它?3月4日,中国将美国基因测序公司因美纳(Illumina)列入“不可靠实体清单”,引发行业震动。这家生产基因测序仪的公司看似低调,却是全球生物实验室的“水电煤”——它的设备几乎垄......

人转录组测序内参标准物质

通过转录组测序获得人的基因表达谱数据,能进一步挖掘疾病相关的生物标志物,为临床诊断提供依据。目前,由于转录组测序无法溯源,导致不同实验室及测序平台产出的数据可比性和测序结果的准确性面临挑战。中国计量科......

科学家测序动物界最大基因组

科技日报北京8月15日电(记者张佳欣)据最新一期《自然》杂志报道,德国康斯坦茨大学和维尔茨堡大学领导的国际研究团队,对动物界最大基因组的拥有者——肺鱼进行了基因组测序。肺鱼基因组约为人类基因组大小的3......

动物保护新动作,300多种反刍动物基因组将测序

据最新一期《自然·遗传学》杂志报道,由多个机构组成的国际“端粒对端粒(T2T)”联盟正在推进“反刍动物端粒-端粒”项目,旨在对300多种反刍动物的基因组进行测序。研究团队期望通过测序得到的基因组图谱,......

预测蛋白质序列的新AI模型问世

瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来......