纳米孔测序技术凭借其长读长、可直接检测碱基修饰以及实时测序等优势,正在深刻改变生命科学与医学研究的格局。然而,在目前公开的超70万组数据中,约85%因缺乏关键元数据——特别是测序芯片类型与碱基识别配置信息——而成为难以有效利用的"僵尸数据"。

近日,上海交通大学医学院附属新华医院与复旦大学合作开发的LongBow算法成功破解了这一技术难题。该创新算法仅需通过FASTQ文件中的质量值(QV)即可精准还原测序芯片类型与碱基识别配置信息。经多类样本测试验证,LongBow的识别准确率超过95%。研究团队还同步构建了配套数据库LongBowDB,为科研人员提供高效的数据查询支持。此外,LongBow还有效解决了纳米孔测序相关研究的可重复性危机,填补了纳米孔测序数据再利用的关键技术空白。该工具为基于纳米孔测序的大数据研究打下了坚实的基础。 

相对于传统的短读长二代测序,纳米孔测序具有长读长、能直接检测碱基修饰、以及实时测序等众多优势,对生命科学与医学研究带来了革命性的影响。随着纳米孔测序技术近年来的广泛应用,公共数据库中已经累计了大量数据,仅SRA数据库中就有超过70万组数据发表。若能有效整合这些数据,将极大的推动基因组学、表观遗传学、医学基因检测、以及生物医学AI大模型的发展。然而令人遗憾的是,由于关键元数据的缺失,大多数(约85%)的公开纳米孔测序数据都是难以直接利用的“僵尸数据”。

纳米孔测序中最基础也是最容易被忽略的元数据就是测序芯片类型(flowcell type)以及碱基识别(basecaller)算法的配置信息,其中包括碱基识别软件的版本以及碱基识别模式等参数。由于这些元数据会对测序数据的错误率以及错误模式产生重大影响,因此绝大多数下游分析软件,如变异检测、基因组组装、以及单倍型分型等,都需要直接或间接的将芯片类型与碱基识别算法的配置信息作为输入(表1)。如果使用错误的参数进行分析,可能会导致准确率下降高达50%(图1d-g)。 

表1. 需要将芯片类型与碱基识别算法的配置信息作为输入的常用软件

图1. 测序芯片类型与碱基识别算法的配置信息对下游分析算法有重大影响,但是大多数公开纳米孔测序数据都缺少这些信息。

针对上述问题,本文作者提出了一种名为LongBow(Lucid Dorado and Guppy Basecaller configuration predictor)的算法,能够根据FASTQ文件中碱基质量分数(QV)准确预测纳米孔测序的关键元数据——测序芯片类型与碱基识别算法配置信息。LongBow是一种层级启发式的算法,只使用FASTQ文件中的测序质量值(QV)作为输入,使用三层分类模型分别还原测序信息的不同部分(图2)。在LongBow模型中,第一层使用QV值的最大值区分目前主流的两种碱基识别软件(Guppy/Dorado);第二层使用QV值的百分比分布特征预测出相应的测序芯片版本(R9/R10)和碱基识别软件的版本(例如Guppy4,Guppy6);在第三层中使用QV值的自相关性精细区分具体的碱基识别模式(FAST/HAC/SUP)。

图2. LongBow的工作原理与流程

本文作者基于44个物种的66组纳米孔测序数据进行了测试。独立测试集涵盖动物、植物、细菌和病毒等不同生物类群,并包含基因组DNA、游离DNA、细胞器DNA及宏基因组等多种测序类型。结果表明,LongBow在这些多样化数据集上的准确率可达95.33%。作者还在1989组关联文章报道了测序芯片类型与碱基识别算法配置信息的人类纳米孔测序数据上进行了测试,LongBow的预测结果与文章报道的一致性为91.45%。此外,作者还利用LongBow对SRA数据库中所有人类纳米孔测序数据进行了预测,并基于预测结果构建了LongBowDB数据库(图3),为研究人员提供便捷的查询服务。

图3. LongBowDB界面

除了会影响纳米孔测序的大数据挖掘以外,公开数据与文献中缺少测序芯片类型与碱基识别算法配置信息还影响了相关研究的可靠性与可重复性,造成了严重的可重复性危机。严格意义上讲,所有缺少测序芯片类型与碱基识别算法配置信息的研究工作都是不可重复的。作者发现COG-UK项目涉及了超过10万组新冠病毒基因组纳米孔测序数据,其中绝大多数数据未披露测序芯片与碱基识别算法配置信息,因此相关研究工作报道的结果是无法从原始测序数据开始重复的。作者按照COG-UK文章中的算法与代码,随机填写测序芯片与碱基识别算法配置信息,结果发现基因组变异检测的准确率下降了近10%,完全无法重复文章报道的结果。然而,使用LongBow预测的结果作为输入,则能够得到与原文相近的准确率。

综上所述,LongBow作为一种创新的大数据挖掘基础算法,通过从纳米孔测序数据的FASTQ文件中提取碱基质量值(QV)模式,高效准确地推断出关键的元数据——测序芯片类型(如R9/R10)和碱基识别器配置(如Guppy/Dorado),解决了当前大规模挖掘纳米孔测序数据的痛点问题。其创新性体现在:1)首次实现了无需原始测序日志即可还原分析必需参数,突破了大规模纳米孔测序数据深度挖掘的技术瓶颈;2)配套开发的LongBowDB数据库为SRA中所有人源纳米孔测序数据提供便捷查询服务,显著提升了数据复用性;3)在COG-UK新冠病毒测序项目中的实践表明,基于LongBow的变异检测能发现更多功能重要的基因组变异,直接解决了纳米孔测序研究中的可重复性问题。该工具为群体基因组学、病原体监测和进化研究提供了不可或缺的分析基础。


复旦大学生命科学学院博士生孟子钧和上海交通大学医学院附属新华医院陈文隽为本文共同第一作者。上海交通大学医学院附属新华医院冯智星、余永国、孙锟教授与复旦大学生命科学学院冯会娟青年研究员为本文的共同通讯作者。

LongBow GitHub链接:https://github.com/JMencius/longbow

LongBowDB链接:https://jmencius.github.io/LongBowDB/

论文原文:Mencius, J., Chen, W., Zheng, Y.et al. Restoring flowcell type and basecaller configuration from FASTQ files of nanopore sequencing data. Nat Commun 16, 4102 (2025). https://doi.org/10.1038/s41467-025-59378-x


相关文章

纳米孔测序“僵尸数据”困境破局!复旦大学联合新华医院推出LongBow算法

纳米孔测序技术凭借其长读长、可直接检测碱基修饰以及实时测序等优势,正在深刻改变生命科学与医学研究的格局。然而,在目前公开的超70万组数据中,约85%因缺乏关键元数据——特别是测序芯片类型与碱基识别配置......

纳米孔测序“僵尸数据”困境破局!复旦大学联合新华医院推出LongBow算法

纳米孔测序技术凭借其长读长、可直接检测碱基修饰以及实时测序等优势,正在深刻改变生命科学与医学研究的格局。然而,在目前公开的超70万组数据中,约85%因缺乏关键元数据——特别是测序芯片类型与碱基识别配置......

纳米孔测序企业「今是科技」完成近亿元B++轮融资

3月3日消息,近日,国内纳米孔测序技术领军企业今是科技宣布完成近亿元B++轮融资。本轮融资由国生资本(成都天府国际生物城投资公司)领投,川创投跟投,募集资金将用于加速全球首个“单碱基纳米孔测序”(SN......

一二三四代测序如何分类。本文揭晓答案

作为生命科学及医疗产业“皇冠上的明珠”,基因测序仪的重要性不言而喻,其广泛运用于与健康相关的各类场景中,如孕产前筛查及遗传病检测、病原微生物诊断及溯源、肿瘤防治等领域都有广阔的应用场景,极大地助力了全......

第四代测序技术原理

以OxfordNanoporeTechnologies为代表的纳米孔测序技术与其他测序技术不同的是,它基于电信号而不是光信号。经历了三个主要的技术革新:一、单分子DNA从纳米孔通过;二、纳米孔上的酶对......

带您了解第四代测序技术

纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。这项技术开始于90年代,经历了三个主要的技术革新:一、单分子DNA从纳米孔通过;二、纳米孔上的酶对于......

一、二、三、四代测序技术原理详解

测序技术的发展主要基于两个非常具有里程碑意义的理念:“生命是序列的”和“生命是数据的”。序列是基因组学最基本最重要的数据,也是生命科学领域大数据时代的核心组成部分。简单来说,测序技术就是将DNA/RN......

美国批准“纳米孔测序”新冠检测试剂EUA

纽约 -美国食品药品监督管理局上周授予美国实验室公司紧急使用授权,用于基于纳米孔测序的检测SARS-CoV-2的试剂。该试剂被称为ClearDxSARS-CoV-2WGSv3.0测试,使用牛......

85后博士团队打造国内首台第四代固态纳米孔基因检测仪

近日,苏州丽纳芯生物科技有限公司(以下简称:丽纳芯)即将发布国内首个新一代固态纳米孔基因检测仪工程样机。据悉,2022年8月丽纳芯完成Pre-A数千万融资,主要用于打造固态纳米孔基因检测仪的商业化进程......

OxfordNanopore携手BioMérieux合作开发进军传染病IVD检测领域

近日,OxfordNanopore公司和BioMérieux宣布合作开发传染病体外诊断(IVD)检测。本次交易的财务条款没有披露。该公司表示,他们正在研究将纳米孔测序引入传染病诊断市场的机会,初步合作......