问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

GenBank EMBL优缺点

发布网友 发布时间:2022-05-09 15:28

我来回答

1个回答

热心网友 时间:2023-10-07 13:35

GenBank数据库结构
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括LOCUS (代码),DEFINITION (说明),ACCESSION (编号),NID符(核酸标识),KEYWORDS (关键词),SOURCE (数据来源),REFERENCE (文献),FEATURES (特性表),BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID。
LOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。
KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中环氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。
SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位,如本例人、真核生物等等(详见图4.1)。
REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目)及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES (特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon 9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区(1-97),编码区(98-1912),3’非编码区(1913-3387),多聚腺苷酸重复区域(3367-3374),等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然,这个例子只是特性表的部分注释信息,但已经足以说明其详细程度。
接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,1032个T。ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。
· EMBL数据库结构
EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。
条目的关键字包括ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献 Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征表起始),FT(序列特征表子项),SQ(碱基种类统计数)。
其它常用核酸序列数据库
· dbEST
dbEST数据库专门收集EST数据,该数据库有自己的格式,包括识别符、代码、序列数据以及dbEST的注释摘要,也按DNA的种类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6ⅹ106条EST。其中有1百万条人的EST,30万条小鼠和大鼠的EST。
· GSDB
GSDB是基因组序列数据库(Genome Sequence Data Base),由美国新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发布完整的DNA序列及其相关信息,以满足基因组测序中心需要。该数据库采用服务器-客户机关系数据库模式,大规模测序机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数据的质量。
GSDB数据库中条目的格式与GenBank中的基本一致,主要区别是GSDB数据库中增加了GSDBID识别符。
GSDB数据库可以通过万维网查询,也可以使用服务器-客户机关系数据库方式查询。无论用哪种方法,熟悉数据库结构化查询语言SQL,对更好地使用GSDB数据库会有所帮助。
· UniGene
人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。
UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。
UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。这就意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。
UniGene可以通过NCBI或SRS系统访问
核酸数据库有哪些?三大核酸数据库详细优缺点介绍

GenBank作为早期建立的数据库,拥有大量序列数据,其注释详尽但可能因数据来源多元而质量参差不齐。EMBL作为国际数据库,注释质量高,但界面复杂,可能需要用户适应。DDBJ则以其日本地区数据和高注释质量为特色,但数据量相对较少。此外,RefSeq和UniProt在特定领域表现出色,如RefSeq的全面性,UniProt的专业性。

德国EPR是什么?

德国EPR是指生产者责任延伸制度。其基本原则是,对于在市场上投放包装商品的卖家而言,产品责任不仅针对产品本身,还包括所有外包装和(产品)部件,即那些消费者最终会丢弃的部分。根据德国当地法律规定,在生产者责任延伸制度原则下,卖家需要...

GenBank EMBL优缺点

该数据库采用服务器-客户机关系数据库模式,大规模测序机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数据的质量。GSDB数据库中条目的格式与GenBank中的基本一致,主要区别是GSDB数据库中增加了GSDBID识别符。GSDB数据库可以通过万维网查询,也可以使用服务器-客户机关系数据库...

个人优点和缺点20个 个人的优点和缺点怎么写 提交序列到GenBank GenBank名词解释 GenBank包含哪些分数据库 GenBank里有蛋白序列吗 NIH基因库GenBank GenBank中的DNA格式序列 优缺点
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
河南旅游景点大全介绍排名 ...市市民办理因私出国去新加坡的护照怎么办理到哪里办理? 查询齐齐哈尔讷河市办理护照,陈秀华的护照什么时候下来 您好我是8月12日在黑龙江省讷河市办理的护照大概需要多上时间可以申请成... 沈阳娱乐在线影视天下,就是铁通的www.024game.com这个网站为什么上不... 好无聊,不是我没主动联系他们,而是他们不理我,全都无视我 为什么很多人很多时候都喜欢感叹:我好无聊啊! 好无聊,有没有人来给我发表情包的 15款宝马x1怎么播放usb音乐 为什么会有平安资管 上传蛋白质到公共数据库,获得接收号怎么操作 如何在swiss-prot 查找有关kinase和srs的查找 owl是什么意思 什么时候需要利用生物信息学获取核酸序列信息 in cell and developmental biology属于哪个数据库 如果我们采用一条基因组序列对Swiss Prot数据库进行blastx搜索,Frame都可能有哪些显示方式。 名词解释 gen bank ,swiss-prot,cos,ftp,pir 试述SWISS-PROT中的数据来源。 我想买一个新号码再佬佬手机上面重新下载一个怎么下载? 新手机如何注册新码步骤 新号码怎么下载 华为u8500不知怎么搞的把屏幕壁纸放大了,怎么缩小啊!!!求高手 每天喝一杯豆浆好吗? 每天早上喝一杯豆浆,对身体真的有好处吗? 每天早晚一杯豆浆,对身体好么 每天喝一杯豆浆好吗 每天一杯豆浆有什么好处 坚持每天喝一升豆浆,身体会有什么变化? 母羊下崽后,小羊吸不出奶怎么办 母羊没奶,羊羔怎么成活 怎么把自己的推广出去? 如何利用网上数据库查找一种人源性蛋白的一级结构序列,并与小鼠的该同源蛋白序列进行比较? 如何精准引流快速爆粉如何推广自己的 怎么推广自己的 如何推广自己的 如何才能把自己的推广出去? 如何才能把自己的推广出去? 怎么把推广出去 怎么能把自己的码 推广出去 怎么把自己的推广出去让别人加 如何推广自己的 什么规范标准对透气帽有安装要求,或验收要求 急求澳大利亚纺织品如帽子检测标准 帽子应符合什麼的检测标准 大湾仔是什么意思? 湾仔码头另外意思是什么? 和我交往过得男生,都弯了,人们都叫我湾仔码头。 看懂的出来说下,我看看有多少人! 湾仔码头背后有什么故事? 湾仔码头云南纯的竞争力是什么? 湾仔码头五大核心产品是什么?