发布时间:2020-03-10 09:17 原文链接: NCBIGenBank数据库的起源、功能和常遇问题及解答

GenBank数据库功能为

一、提交获取的基因序列;

二、查找已知基因的序列生物学特性信息,例如编码区,科学命名等。

那么Genebank ID 和Gene cluster ID又是什么呢?

GenBank数据库起源

GenBank数据库是1982年由美国国立生物技术信息中心(NCBI)建立并维护的综合性序列数据库。大约每2个月会更新一次版本,截止到2004年9月最新的版本是Release143,共有37,343,937 条序列纪录,大约包含了来源于约140,000个物种  的41,808,045,653个碱基。

所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及 EST 数据、基因组测序数据、大规模基因组序列数据等 16 类,其中 EST 数据等又被各自分成若干个文件。

它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。

GenBank数据库功能

实验工作人员使用GenBank的功能之一就是通过GenBank提供的2个软件  工具把本实验的研究序列提交到数据库中从而获取序列号,这样发表文献时便于引用,成为学术界承认的实验工作样品,从而其他人可以重复实验,现在权威的刊物都需要提供序列的存储编号。

BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,GenBank的新序列编号,以及完成注释后的完整的数据记录。

用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序  工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。

Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://NCBI  .nlm.nih.gov/sequin/ 下找到,Sequin的使用说明可详见其网页。

使用GenBank的重要的功能之二是按照实验的要求查询序列信息以及相关的研究文献。通过GenBank数据库数据记录包含了找到序列的简要描述,它的科学命名,物种  分类名称,参考文献,序列特征表,以及序列本身。

序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。

GenBank数据库常见问题与解答:

1 什么是Genebank ID?从什么网址检索基因库?

Genebank ID 就是genbank中基因的序列编号,你可以在www.NCBI.NLM.NIH.GOV中检索你感兴趣的基因,你可以了解相关的基因序列以及简单的功能描述,你也可以根据基因名称查找相关的文献。

2. Gene cluster ID 是什么?

Gene cluster ID 是指特定基因的编号,由于每一个基因在GENBANK中可能会登记多个序列(包括EST,各种不同长度的基因片段),Gene cluster就是将所有这些属于同一个基因来源的片段归类在一起,给出一个统一的基因编号,因此一个实际上就代表了某一个特定的基因。根据这个编号可以在GENEBANK中找到一个特定的基因。

3 过什么途径查到基因的简单功能。我看到许多文献上不同的名称,如,Gene ID ,Genbank ID,下面是我检索的一个页面,您看时这样的吗?它的功能描述在哪里?

如果你要查找基因的简单功能有两种选择,第一利用Gene ID 或 Genbank ID或基因名称选择NUCLEOTIDE进入你现在看到的页面,在右上角的LINK下你可以选择LOCUS LINK一项,你就可以进入相关的基因页面(见附录网页);

或者直接用在首页输入基因名称,选择UNIGENE或LOCUS LINK项,你可以直接进入LOCUS网页,然后点击LOCUS LINK就可以进入你想要的基因的网页,简单的功能描述在这些网页你都可以看到。

GenBank也可以和其他的序列分析软件结合使用,从而对基因序列进行比对分析。提交序列的时候只要将序列用sequin 编辑好即可以邮件形式发送给GENEBANK提供的邮箱即可


相关文章

岛津又一合作成果——GCMS特色代谢物数据库正式发布

代谢组学(Metabonomics/Metabolomics)是继基因组学和蛋白质组学之后新近发展起来的一门学科,是系统生物学的重要组成部分,已广泛应用于食品及医药等领域。岛津一直致力于为代谢组学研究......

关于印发《数据库政府采购需求标准(2023年版)》的通知

财库〔2023〕35号党中央有关部门,国务院各部委、各直属机构,全国人大常委会办公厅,全国政协办公厅,最高人民法院,最高人民检察院,各民主党派中央,有关人民团体,各省、自治区、直辖市、计划单列市财政厅......

关于印发《一体式计算机政府采购需求标准(2023年版)》的通知

关于印发《一体式计算机政府采购需求标准(2023年版)》的通知财库〔2023〕31号党中央有关部门,国务院各部委、各直属机构,全国人大常委会办公厅,全国政协办公厅,最高人民法院,最高人民检察院,各民主......

金融机构批量迁移,国产数据库“东风”起

数据库、操作系统和芯片,被视为现代信息技术领域的三大核心,是基础软件“皇冠上的明珠”。随着我国自研数据库能力不断提升,持续经受考验,从银行到保险公司,从到制造企业到新零售行业,越来越多的企业开始将核心......

三个途径解决生成式人工智能知识产权难题

我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,对产品在研发阶段的数据合法性要求,应当根据数据类型和基本伦理要求,采取开放包容的规范原则。解决生成式人工......

星际富勒烯红外谱数据库的构建与可靠预测取得进展

富勒烯C60的发现起源于人们对星际碳物质的探索,获得1996年诺贝尔化学奖的Kroto教授曾于1980年代末期提出猜想:星际空间中,富勒烯可与其他星际分子/离子通过离子-分子或分子-分子反应形成富勒烯......

研究发布大豆多维组学数据库SoyOmics

大豆(Glycinemax(L.)Merr.)是重要的粮油作物之一,其产量提升、品质改进关乎全球人口的需求和利益。高通量测序技术的发展促使大豆组学研究不断深入。实现大豆多维组学数据的整合分析,将会为大......

应急管理部:建设乡村灾害风险隐患数据库

国务院新闻办公室15日举行新闻发布会。国务院第一次全国自然灾害综合风险普查领导小组办公室副主任、应急管理部风险监测和综合减灾司司长陈胜介绍,下一步,在普查成果转化为乡村自然灾害防治能力的提升上下功夫。......

《永乐大典》高清影像数据库等在国家图书馆发布

发布会现场(崔雪芹摄影)2月8日,《永乐大典》高清影像数据库及《国家珍贵古籍名录》知识库在国家图书馆正式发布。文化和旅游部党组成员、副部长饶权,北京大学党委书记郝平,中宣部出版局局长冯士新,国家图书馆......

中科院在数据库系统正确性保障方面取得进展

近日,中科院软件所软件工程中心数据库系统可靠性保障团队的两篇论文被ICSE2023接收。ICSE(InternationalConferenceonSoftwareEngineering)是软件工程领......