公共DNA数据库中包含很多生物类群,为系统学提供了大量数据来源。目前,基于分子数据的物种鉴别和界定工作已经逐步开展。现代测序技术的飞速发展,带来了海量分子数据的同时,也导致很多研究人员无法为相关数据提供准确的分类学信息。这些分类信息不够完整的分子数据,阻碍了在物种一级水平上开展精细的数据挖掘。同时,基于较大数据库进行物种聚类研究,也需要整合多个基因片段,从而在数据结构和计算过程中产生了很多问题。
Douglas Chesters博士在中国科学院动物研究所朱朝东研究组开展博士后研究,出站后被聘任为动物所助理研究员期间,研发了一种在分子序列数据库中界定物种的方法:1)首先获取所有昆虫的DNA序列,并对它们进行文本加工;2)根据一定的规则过滤掉重复数据;3)划分遗传位点L;4)根据每个位点信息,界定物种S;5)物种单元与位点相匹配,形成一组多位点物种界定的数据矩阵L×S。
作者应用马尔科夫聚类的方法将数据库划分为同源基因片段数据集。基于包含大部分物种多样性的基因,完成物种鉴定,并同时对物种单元名字赋予物种名。在物种聚类过程中,两两相似之处计算的复杂性主要来源于线粒体基因组中的COI位点。科研人员通过开发软件解决了这个复杂的过程:在分类的体系内执行序列两两比对,且为不同阶元的序列标注分类信息。
GenBank中GenBank中超过24个不同同源基因,194 000个未带分类标签的序列,包含41 525个带分类标签的物种(98.7%从昆虫数据库中获得)。通过对每个位点的分层聚类,利用独立的最优参数,这些序列被分组到59 173个基于单个位点的分子分类单元(MOTU)中。来自不同位点的MOTU,由多部匹配算法进行匹配。这样,位点之间形成不一致性最低的多位点单元。匹配后,科研人员通过这24个位点,发现了在目前的昆虫数据库中,存在78 091个基于多位点信息的MOTU。其中,38 574个单元包含物种分类学信息,而34 891个则没有包含分类标签,剩下的4 626个单元两种情况并存。
除了可以估算物种多样性,科研人员开发的规程还将促进现代序列数据集的物种界定。特别是L×S矩阵代表了后分类学思路,将可以解构种级元基因组数据。这些方法将可以在多个基因位点,甚至基因组水平提取大量数据,产生更多研究物种多样性的L×S数据矩阵,从而整合到后续的系统发育的流程。
该工作主要得到中国科学院知识创新工程、中国国家自然科学基金委面上和人才项目支持,并部分得到中国农业部公益性行业(农业)科研专项和中国国家科技部基础性工作专项的支持。
论文信息:Douglas Chesters; Chao-Dong Zhu. A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta. Systematic Biology 2014; doi: 10.1093/sysbio/syu038.
在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......
为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......
近日,中国科学院上海药物研究所研究员陈勋团队联合日本京都大学、加拿大麦吉尔大学科研人员,通过开发基于进化的转座子注释新方法,并结合系统发育分析、大规模平行报告系统及多组学等技术,在单碱基水平上揭示了内......
随着人工智能(AI)、自动化等技术的持续突破,利用传感器进行数据采集与高速传输,并通过物联网存储海量数据,正持续推进智能化养殖业发展,逐渐成为推动猪育种向精准化、高效化、智能化转型的核心驱动力。从整个......
国家知识产权局办公室关于印发《知识产权数据使用手册及开放目录》的通知国知办函服字〔2025〕153号各省、自治区、直辖市和新疆生产建设兵团知识产权局,各地方有关中心:为促进知识产权数据开发利用,提高知......
2月23日,记者从海南医科大学获悉,该校热带医学院杨国静教授团队近日在国际医学期刊《英国医学杂志》在线发表论文《中国被忽视热带病负担估计的差异:真实世界数据与GBD2021的比较研究(2004—202......
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满......
12月28日,由人民数据开发的“数融平台”正式上线试运营。平台整体依托区块链、人工智能和企业经营相关数据要素,实现链上信息全透明、全上链,实现数据资产情况全穿透,实时追踪一手风控数据,对潜......
随着新一轮科技革命和产业变革深入发展,数据作为关键生产要素的价值日益凸显。五部门:制定数据产业发展促进政策近日,国家数据局联合中央网信办、工业和信息化部、公安部、国务院国资委印发了《关于促进企业数据资......
2024年12月3日,自然科学基金委管理科学部、信息科学部在北京召开专项项目“数据市场制度设计与关键技术”评审会议。自然科学基金委党组成员、副主任江松院士出席会议并讲话。国家数据局政策与规划司副司长栾......