发布时间:2022-08-01 15:40 原文链接: NGS测序中,接头是如何添加上的,以及如何去接头

我见过的相当一部分人,做质控时,一般也就就是跑个实验室或者公司的祖传代码,但对于软件所做的操作不求甚解,归根结底,是因为对测序流程中,接头是怎么加上去的不太了解。

现在我们接触的大多数二代测序数据,都是来自于illumina测序平台。这其中,大多数illumina文库的构建,是通过将接头连接到fragment DNA/cDNA的两端(但是Nextera方法除外,因为技术相对不常见,这里不深入展开)。 下图是一张很经典的加接头的示意图,图片下载于网页 http://tucf-genomics.tufts.edu/home/faq

正如图所示,大概分为如下步骤。

  • 用酶或者激光或者超声波将Genomic DNA或者由RNA反转组得到的双链cDNAs打断成小片段

  • 打断是随机打断,有可能末端不平整,还需要用酶补平

  • 补平之后,需要在3’端加A碱基

  • 加上A之后,再加adapter

这时候,我们好像心里有那么点数,但是依然不知道adapter具体是怎么加上去的,也并不知道接头中,read1 sequncing primer, index, read2 sequencing primer,以及index sequencing primer到底在接头的什么地方。

那,是时候放出这张图了。


看完这张图,我们感觉对接头的添加这个过程的理解,好像多了几分。如果我们看上面这两张图,感觉就是在fragment DNA两端直接加了一个Y字形的引物,它被称人称为Full Y-adapter或者forked adapters。

但我们如果看illumina的官方视频,能够看到如下几帧介绍。

(上面的图是我从视频里截取下来,文字是根据我听到的加上去的)

从图片中我们能够看到,在“接头”添加之前,接头上好像已经有另一个叉形接头了,那这是咋回事呢? Y形接头不是直接添加到DNA fragment上的吗?

其实这是两种不同的indexing strategy导致的差异, 而这两种strategy的示意图,如下图所示。

左边的是直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。

右边的那种是先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列。

一句话总结,这两种不同的indexing strategy的差别在于引入index序列的时机和方式不一样。

其实右边的图并不是画的特别形象,具体的的可以参看下面这张图,图片的来源是https://www.fimm.fi/en/services/technology-centre/sequencing/next-generation-sequencing/dna-library-preparation

在这里我们能够清楚地看到,这种接头添加过程中,fragment DNA两端是先连上PE adapter, 然后再通过PCR引入的region complementary to P5/P7 sequence, index, and sequencing biding sites.


如果你的序列含有TruSeq Universal Adapter, 这时候可以采用如下去接头的代码。至于如何判断你的序列里到底有没有TruSeq Universal Adapter,可以下次单独写一篇来讲解。

去接头代码:

cutadapt --times 1 -e 0.1 -O 3  -m 30 -q 25,25 -u 8 -a AGATCGGAAGAGC -A AGATCGGAAGAGC  -o trimmed.1.fastq.gz -p trimmed.2.fastq.gz  reads.1.fastq.gz reads.2.fastq.gz


我们今天的收获是:

  • illumina文库构建的一般方式

  • illumina接头的两种添加方式(两种不同的indexing strategies)

  • 如何用cutadapt去除TruSeq Universal Adapter

只是一个很小的细节,我们就讨论了这么多,今天就讨论到这里,下次我们再接着结合illumina官网的序列,用实实在在的碱基序列示意图来讲解,为什么要这么来去接头。

附上illumina官网的测序原理介绍视频如下:

相关文章

年度盘点:2023年阿尔茨海默病研究初现曙光

阿尔茨海默病(AD)又称老年痴呆,起病隐匿,病程缓慢且不可逆,以智能障碍为主。随着人口老龄化的进展,全球AD患者数量逐年增加,严重危害中老年人的健康,也给家庭和社会带来沉重的负担。回望2023年,AD......

Nature最新文章:基因测序游戏规则正在被改写,速度翻倍,仅需数小时

超高速测序推动基因组诊断快速发展简化的DNA和RNA测序工作流正在帮助临床医生在几天甚至几小时内提供迅速的有针对性的护理    约十年前,澳大利亚墨尔本的默多克......

瑞孚迪:改变千万新生命——全基因组测序在新生儿筛查中的应用

导读:这项技术可以及早发现那些可能对患儿生命产生重大影响的罕见疾病。     瑞孚迪的这项首创研究证明了全基因组测序在对看似健康的新生儿的筛查中存在重......

立足“东方大湾区”:因美纳携手海普洛斯打造国产旗舰桌面测序系统

2023年12月11日,中国深圳——12月9日,全球基因测序和芯片技术的领导者因美纳携手中国肿瘤液体活检和基因大数据高新技术企业海普洛斯共同宣布,首台NextSeq™2000Dx-CN-HAP国产基因......

迄今最大全基因组测序数据公布!产业链受益上市公司梳理

经过历时5年、超35万小时的基因组测序以及超2亿英镑的投资,英国生物银行30日发布了迄今为止世界上最大的全基因组测序数据。英国生物银行首席研究员罗里·柯林斯表示,对于从事健康研究的科学家来说,这是名副......

高通量测序基因分型系统规范即将实施!

国家标准《信息技术生物特征识别高通量测序基因分型系统规范》将于2023年12月1日正式实施。该标准由TC28(全国信息技术标准化技术委员会)归口,TC28SC37(全国信息技术标准化技术委员会生物特征......

4000万!20232026年中国科学院测序和质谱检测项目公开招标

公告信息采购项目名称2023-2026年度测序服务商采购项目品目服务/科学研究和试验开发/其他研究和试验开发服务采购单位中国科学院遗传与发育生物学研究所行政区域北京市公告时间2023年11月03日14......

贝瑞基因:基于三代测序平台单分子实时测序技术的动态突变检测dmTGS

贝瑞基因正式推出基于三代测序平台单分子实时测序技术的动态突变检测dmTGS,能够进一步拓展疾病检测范围,一次性检测41个基因导致的48种动态突变疾病。......

NMPA:非小细胞肺癌组织TMB检测试剂盒(可逆末端终止测序法)获批上市

近日,国家药品监督管理局批准了南京世和医疗器械有限公司生产的“非小细胞肺癌组织TMB检测试剂盒(可逆末端终止测序法)”创新产品注册申请。该产品用于体外定性检测EGFR基因突变阴性和ALK阴性的非鳞状非......

中国银河给予诺禾致源买入评级,目标价位30.0元

中国银河证券股份有限公司程培近期对诺禾致源进行研究并发布了研究报告《平台切换影响短期业务节奏,看好核心业务长期成长》,本报告对诺禾致源给出买入评级,认为其目标价位为30.00元,当前股价为20.61元......