我见过的相当一部分人,做质控时,一般也就就是跑个实验室或者公司的祖传代码,但对于软件所做的操作不求甚解,归根结底,是因为对测序流程中,接头是怎么加上去的不太了解。
现在我们接触的大多数二代测序数据,都是来自于illumina测序平台。这其中,大多数illumina文库的构建,是通过将接头连接到fragment DNA/cDNA的两端(但是Nextera方法除外,因为技术相对不常见,这里不深入展开)。 下图是一张很经典的加接头的示意图,图片下载于网页 http://tucf-genomics.tufts.edu/home/faq

正如图所示,大概分为如下步骤。
用酶或者激光或者超声波将Genomic DNA或者由RNA反转组得到的双链cDNAs打断成小片段
打断是随机打断,有可能末端不平整,还需要用酶补平
补平之后,需要在3’端加A碱基
加上A之后,再加adapter
这时候,我们好像心里有那么点数,但是依然不知道adapter具体是怎么加上去的,也并不知道接头中,read1 sequncing primer, index, read2 sequencing primer,以及index sequencing primer到底在接头的什么地方。
那,是时候放出这张图了。

看完这张图,我们感觉对接头的添加这个过程的理解,好像多了几分。如果我们看上面这两张图,感觉就是在fragment DNA两端直接加了一个Y字形的引物,它被称人称为Full Y-adapter或者forked adapters。
但我们如果看illumina的官方视频,能够看到如下几帧介绍。

(上面的图是我从视频里截取下来,文字是根据我听到的加上去的)
从图片中我们能够看到,在“接头”添加之前,接头上好像已经有另一个叉形接头了,那这是咋回事呢? Y形接头不是直接添加到DNA fragment上的吗?
其实这是两种不同的indexing strategy导致的差异, 而这两种strategy的示意图,如下图所示。

左边的是直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。
右边的那种是先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列。
一句话总结,这两种不同的indexing strategy的差别在于引入index序列的时机和方式不一样。
其实右边的图并不是画的特别形象,具体的的可以参看下面这张图,图片的来源是https://www.fimm.fi/en/services/technology-centre/sequencing/next-generation-sequencing/dna-library-preparation

在这里我们能够清楚地看到,这种接头添加过程中,fragment DNA两端是先连上PE adapter, 然后再通过PCR引入的region complementary to P5/P7 sequence, index, and sequencing biding sites.
如果你的序列含有TruSeq Universal Adapter, 这时候可以采用如下去接头的代码。至于如何判断你的序列里到底有没有TruSeq Universal Adapter,可以下次单独写一篇来讲解。
去接头代码:
cutadapt --times 1 -e 0.1 -O 3 -m 30 -q 25,25 -u 8 -a AGATCGGAAGAGC -A AGATCGGAAGAGC -o trimmed.1.fastq.gz -p trimmed.2.fastq.gz reads.1.fastq.gz reads.2.fastq.gz
我们今天的收获是:
illumina文库构建的一般方式
illumina接头的两种添加方式(两种不同的indexing strategies)
如何用cutadapt去除TruSeq Universal Adapter
只是一个很小的细节,我们就讨论了这么多,今天就讨论到这里,下次我们再接着结合illumina官网的序列,用实实在在的碱基序列示意图来讲解,为什么要这么来去接头。
附上illumina官网的测序原理介绍视频如下:
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
英国研究人员在新一期美国《神经肿瘤学杂志》上发表论文介绍,他们新开发出一种超快速脑肿瘤基因诊断方法,可以将脑肿瘤的诊断时间从此前的6至8周缩短至2小时。这种脑肿瘤基因诊断方法由英国诺丁汉大学等机构的研......
由新加坡科技研究局基因组研究所领导的科学家团队,发布了迄今全球最大、最全面的长读长RNA测序数据集之一——新加坡纳米孔表达数据集(SG-NEx)。这一成果有望解决疾病研究中长期存在的技术瓶颈,使研究人......
经过20多年的努力,科研人员成功地对6种现存猿类的基因组进行了完整测序,为研究人类进化提供了近距离视角,这被英国《自然》杂志称为“遗传学的一个里程碑”。123名来自多个国家和地区的科研人员组成的团队9......
昆明医科大学第二附属医院2025年05月(至)2025年06月政府采购意向为便于供应商及时了解政府采购信息,根据《财政部关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)等有关规定,现将昆......
事件焦点:为什么是它?3月4日,中国将美国基因测序公司因美纳(Illumina)列入“不可靠实体清单”,引发行业震动。这家生产基因测序仪的公司看似低调,却是全球生物实验室的“水电煤”——它的设备几乎垄......
通过转录组测序获得人的基因表达谱数据,能进一步挖掘疾病相关的生物标志物,为临床诊断提供依据。目前,由于转录组测序无法溯源,导致不同实验室及测序平台产出的数据可比性和测序结果的准确性面临挑战。中国计量科......
科技日报北京8月15日电(记者张佳欣)据最新一期《自然》杂志报道,德国康斯坦茨大学和维尔茨堡大学领导的国际研究团队,对动物界最大基因组的拥有者——肺鱼进行了基因组测序。肺鱼基因组约为人类基因组大小的3......
据最新一期《自然·遗传学》杂志报道,由多个机构组成的国际“端粒对端粒(T2T)”联盟正在推进“反刍动物端粒-端粒”项目,旨在对300多种反刍动物的基因组进行测序。研究团队期望通过测序得到的基因组图谱,......
瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来......