发布网友 发布时间:2024-10-05 04:09
共1个回答
热心网友 时间:2024-12-03 12:36
GenBank,由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)运营的DNA序列数据库,主要用于收集和存储科研人员提交或大规模基因组测序计划(Benson等, 1998)产生的序列数据。为了保证数据完整性,GenBank与EMBL和DDBJ建立了数据交换协议。数据库设计为子库结构,这为用户提供了便利,可以针对特定部分快速查询,例如,高通量基因组序列(HTG)、表达序列标记(EST)、序列标记位点(STS)和基因组概览序列(GSS)等分类,即使在未注释的大量序列中也能更精准地搜索。
通过Entrez数据库查询系统,用户可以整合查询核酸、蛋白质序列、基因图谱和蛋白质结构信息,以及通过MEDLINE获取相关文献摘要。访问NCBI主页并使用BLAST程序,可以进行未知序列的同源性搜索。GenBank数据库包括序列文件、索引文件和其他相关信息,索引文件依据作者、参考文献等建立,便于查询。GenPept是基于GenBank的核酸序列翻译的蛋白质序列数据库,采用FastA格式。
以前,GenBank以CD-ROM形式分发,但随着数据库容量的增加,光盘存储方式已不再适用。现在,用户可以直接通过网络下载。GenBank的核心是序列文件,由单个的序列条目组成,每个条目包含一系列字段,如代码(LOCUS)、说明(DEFINITION)、编号(ACCESSION)等,每个字段都有特定的说明和结构规则。例如,LOCUS代码如HUMCYCLOX,用于标识人的环氧化酶cyclooxygenase,序列长度、来源、录入日期等信息也包含其中。
核酸标识符(NID)标识序列的当前版本,而关键词(KEYWORDS)由提交者提供,详细描述了序列的基因产物等信息。数据来源(SOURCE)字段指出序列来源,次关键字(ORGANISM)指明生物分类。文献(REFERENCE)字段列出相关文献,包括作者、题目和期刊等,同时与MEDLINE文献摘要数据库相连,点击即可获取详细摘要。特性表(FEATURES)则详细描述序列特性,如编码区、非编码区和连接到其他数据库的标识等。最后,BASE COUNT记录碱基频率,ORIGIN标记序列起始位置,完整序列以//结束。
集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。基因和基因组的资料也包含在DNA数据库中。目前国际上比较重要的核酸(含蛋白质)一级数据库有美国的GenBank、欧洲的EMBL和日本的DDBJ。三个数据库信息共享,每日交换,故资料是一样的,唯格式有所不同。