一文快速读懂 KEGG 数据库与通路图
发布网友
发布时间:2024-09-04 19:01
我来回答
共1个回答
热心网友
时间:2024-09-09 07:55
在进行生物学实验或生物信息学习时,经常会接触到KEGG富集分析。这种方法已成为高通量测序数据分析中不可或缺的一环。其核心依托于1995年由Kanehisa实验室开发的KEGG数据库,即京都基因与基因组百科全书。该数据库包含基因组、生化反应、生化物质、疾病与药物以及PATHWAY通路信息等子数据库。
访问KEGG官网(kegg.jp)后,主页主要分为以下几部分:
二、KEGG的数据库构成
KEGG子库存储的信息是生物系统的计算机表示形式,由基因和蛋白质(基因组信息)及化学物质(化学信息)的分子部件组成。这些部件的相互作用、反应和关系构成*网络图(系统信息),此外还包含疾病和药物信息(健康信息)。具体分类及数据库如下:
三、KEGG PATHWAY数据库
在所有子数据库中,最关键且最常用的是KEGG PATHWAY,包括大量科研人员根据研究文献手动绘制的KEGG通路图,代表代谢过程、环境信息过程、细胞过程、生物系统、人类疾病和药物开发。每个通路都由一个五位数字标识,后跟以下任意一个:map、ko、ec、rn和三字母或四字母生物代码,分别代表五种通路类型:
在了解每种通路之前,我们先学会在KEGG中切换每种通路类型。
地址:kegg.jp/kegg-bin/show_p...
使用过程中切换各种通路类型,如进入TCA循环,可以通过左上角下路菜单来切换。
接下来,我们详细介绍每种通路:
1. 参考通路图(map)
以TCA循环的通路图为例,进入参考通路图(Reference pathway)。这是原始版本的通路,也是后续几种通路图的“模板”。每个白框可以代表直系同源基因、酶、反应,也可以点击链接至KO、ENZYME和REACTION详细信息。
上述形状、箭头、线段代表如下意义:
2. 物种特异性通路(org)
选择人的物种名Homo sapiens (human),点击Go。可以看到与Reference pathway图(map00020)不同的是有物种特异性基因被标注为绿色,而且通路编号为hsa00020。
访问链接:kegg.jp/kegg-bin/show_p...当然,如果直接访问hsa00020的链接也可以进入该通路:kegg.jp/kegg-bin/show_p...
点击绿色基因,会进入Gene详细信息。
3. 直系同源物通路(ko)
蓝色框超链接到从原始版本中选择的KO条目。
进入PCK的直系同源基因信息。
4. 酶通路(ec)
蓝色框超链接到从原始版本中选择的ENZYME条目。
进入ENZYME。
5. 反应通路(reaction)
蓝色框超链接到从原始版本中选择的反应条目。
点击后进入对应的反应信息界面,如下图:
四、KEGG ORTHOLOGY(KO)数据库
KEGG ORTHOLOGY(KO)数据库是构建Pathway和Mole的基础,相当于KEGG数据库构建的基石。因此,理解KO数据库的构成对于使用及了解KEGG至关重要。
然而,这种通用方法不足以理解由物种内基因和基因组的变异所引起的更详细的特征,特别是对于理解与人类基因和基因组的疾病相关的变异而言。后来他们开发了KEGG NETKERK,该数据库不仅涉及基因变异,而且包括病毒和其他因素的网络变异方面的疾病和药物知识。
KEGG的开发者根据不同生物之间基因和基因组的保守和变异,引入直系同源物(KO)的概念,使得KEGG通路图、BRITE层次结构和KEGG模块的参考数据集可以广泛应用于任何细胞生物。
概念
1.KO号:表示不分物种的通路,相当于所有物种的这一通路的并集,比如ko00020代表的TCA循环(下图所示),下图的每个圆角矩形也代表着一个KO通路。
2.K号:表示基因,每个号代表的是所有物种的一个同源基因,比如上图中的K01596代表的是PCK。
进入K01596的详细页面,我们会看到它代表的是一个基因列表,这些基因具有一个功能却来自于不同的物种。
3.C号:表示化合物
对于分析工具使用和KEGG资源下载,将在后续文章中更新。