如何高效玩转共表达网络分析
发布网友
发布时间:2022-05-21 08:05
我来回答
共1个回答
热心网友
时间:2023-11-11 03:12
对于许多现实的地理问题,譬如,城镇体系问题,城市地域结构问题,交通问题,商业网点布局问题,物流问题,管道运输问题,供电与通讯线路问题,…,等等,都可以运用网络分析方法进行研究.
网络分析,是运筹学的一个重要分支,它主要运用图论方法研究各类网络的结构及其优化问题.
网络分析方法是计量地理学必不可少的重要方法之一.
本章主要内容:
地理网络的图论描述
最短路径与选址问题
最大流与最小费用流
第一节 地理网络的图论描述
通俗意义上的"图",主要是指各种各样的地图,遥感影像图,或者是由各种符号,文字代表的示意图,或者是由各种地理数据绘制而成的曲线图,直方图,等等.
图论中的"图",是一个数学概念,这种"图"能从数学本质上揭示地理实体与地理事物空间分布格局,地理要素之间的相互联系以及它们在地域空间上的运动形式,地理事件发生的先后顺序,…,等等.
一,地理网络的图论描述
(1)图: 设V是一个由n个点vi (i=1,2,…,n)所组成的集合,即V={v1,v2,…,vn},E是一个由m条线ei(i=1,2,…,m)所组成的集合,即E={e1,e2,…,em},而且E中任意一条线,都是以V中的点为端点;任意两条线除了端点外没有其它的公共点.
(一)图的定义
那么,把V与E结合在一起就构成了一个图G,记作G=(V,E).
(3)边:E中每一条线称为图G 的边(或弧);若一条边e连接u,v两个顶点,则记为e=(u,v).
(2)顶点: V中的每一个点vi(i=1,2,…,n)称为图G的顶点.
(4)在图G=(V,E)中,V不允许是空集,但E可以是空集.
(5)从以上定义可以看出,图包含两个方面的基本要素:
① 点集(或称顶点集);②边集(或称弧集).
例:在如图10.1.1所示的图中,
顶点集为V={v1,v2,v3,v4,v5,v6,v7,v8},
边集为E={e1,e2,e3,e4,e5,e6,e7,e8,e9,
e10,e11 }.
图10.1.1
(6)在现实地理系统中,对于地理位置,地理实体,地理区域以及它们之间的相互联系,可以经过一定的简化与抽象,将它们描述为图论意义下的地理网络,即图.
地理位置,地理实体,地理区域,譬如,山顶,河流汇聚点,车站,码头,村庄,城镇等——点
它们之间的相互联系,譬如,构造线,河流,交通线,供电与通讯线路,人口流,物质流,资金流,信息流,技术流等——点与点的连线.
一个由基本流域单元组成的复杂的流域地貌系统,如果舍弃各种复杂的地貌形态,各条河流——线,河流分岔或汇聚处——点,流域地貌系统——水系的基本结局(树).
列昂纳德·欧拉——七桥问题
东普鲁士的哥尼斯堡城(现在的加里宁格勒)是建在两条河流的汇合处以及河中的两个小岛上的,共有七座小桥将两个小岛及小岛与城市的其它部分连接起来,那么,哥尼斯堡人从其住所出发,能否恰好只经过每座小桥一次而返回原处 图论研究结果告诉我们,其答案是否定的.
(7)需要说明的是——图的定义只关注点之间是否连通,而不关注点之间的连结方式.对于任何一个图,他的画法并不唯一.
(二)图的一些相关概念
(1)无向图与有向图
无向图——图的每条边都没有给定方向,
即(u,v)=(v,u);
有向图——图的每条边都给定了方向,
即(u,v)≠(v,u).
一般将有向图的边集记为A,无向图的边集记为E.这样,G=(V,A)就表示有向图,而G=(V,E)则表示无向图.
有向图
(2)赋权图.
如果图G=(V,E)中的每一条边(vi,vj)都相应地赋有一个数值wij,则称G为赋权图,其中wij称为边(vi,vj)的权值.
除了可以给图的边赋权外,也可以给图的顶点赋权.这就是说,对于图G中的每一顶点vj,也可以赋予一个载荷a(vj).
(3)关联边.
若e=(u,v),则称u和v是边e的端点,e是u和v的关联边.
(4)环.
若e的两个端点相同,即u=v,则称为环.
(5)多重边.
若连接两个端点的边多于一条以上,则称为多重边.
(6)多重图.
含有多重边的图,称为多重图.
(7)简单图.
无环,无多重边的图,称为简单图.
(8)点与次.
以点v为端点的边的个数称为点v的次,记为d(v).
次等于1的点称为悬挂点;与悬挂点关联的边称为悬挂边;
次为零的点称为孤立点.次为奇数的点称为奇点;次为偶数的点称为偶点.
(9)连通图.在图G中,若任何两点之间至少存在一条路(对于有向图,则不考虑边的方向),则称G为连通图,否则称为不连通图.
(10)路(链).
若图G=(V,E)中,若顶点与边交替出现的序列(对于有向图来说,要求排在每一条边之前和之后的顶点分别是这条边的起点和终点):
P={vi1,ei1,vi2,ei2,…,eik-1,vik}
满足
eit = (vit,vi,t+1) (t=1,2,…,k-1)
则称P为一条从vi1到vik的路(或链),简记为
P={vi1,vi2,…,vik}.
(11)回路.
若一条路的起点与终点相同,即vi1=vik,则称它为回路.
(12)树.
不含回路的连通的无向图称为树.
(13)基础图.
从一个有向图D=(V,A)中去掉所有边上的箭头所得到的无向图,就称为D的基础图,记之为G(D).
(14)截.
如果从图中移去边的一个集合将增加亚图的数目时,被移去的边的集合就称为截.
(15)子图.
设G=(V, E)是一个无向图,V1与E1分别是V与E的子集,即V1 V,E1 E.如果对于任意ei∈E1,其两个端点都属于V1,则称G1=(V1,E1)是图G的一个子图.
(16)支撑子图.
设G1=(V1,E1)是图G=(V,E)的一个子图,如果V1 = V,则称G1是G 的支撑子图.
(17)支撑树.
设G=(V,E)是一个无向图,如果T=(V1,E1)是G的支撑子图,并且T是树,则称T是G 的一个支撑树.
(18)树的重量.
一个树的所有边的权值之和称为该树的重量.
(19)最小支撑树.
在一个图的所有支撑树中,重量最小的那个叫做该图的最小支撑树.
二,地理网络的测度
许多现实的地理问题,只要经过一定的简化和抽象,就可以将它们描述为图论意义下的地理网络,点和线的排布格局,并可以进一步定量化地测度它们的拓扑结构,以及连通性和复杂性.
树状型
地理网络
平面网络(二维的)
非平面网络(非二维的)
道路型
环状型
细胞型
图10.1.5 地理网络的拓扑分类
目前关于地理网络的拓扑研究,最多,最常见的是基于平面图描述的二维平面网络.
所谓平面图,被规定为:各连线之间不能交叉,而且每一条连线除顶点以外,不能再有其它的公共点(牛文元,1987).
以下的讨论,除非特别申明外,都限于二维平面网络.
(一)关联矩阵与邻接矩阵
关联矩阵——测度网络图中顶点与边的关联关系.
假设网络图G=(V,E)的顶点集为V={v1,v2,…,vn},边集为E={e1,e2,…,em},则该网络图的关联矩阵就是一个n×m矩阵,可表示为:
gij为顶点vi与边ej相关联的次数.
v3
v1
v2
v4
v5
e1
e2
e3
e4
e5
e6
e7
该图的关联矩阵为:
例:
邻接矩阵——测度网络图中各顶点之间的连通性程度.
假设图G=(V,E)的顶点集为V={v1,v2,…,vn},则邻接矩阵是一个n阶方阵,可表示为:
aij表示连接顶点vi与vj的边的数目.
该图的邻接矩阵为:
v3
v1
v2
v4
v5
e1
e2
e3
e4
e5
e6
e7
例:
(二)有关测度指标
β指数
回路数k
α指数
γ指数
对于任何一个网络图,都存在着三种共同的基础指标:
① 连线(边或弧)数目m;
② 结点(顶点)数目n;
③ 网络中亚图的数目p.
由它们可以产生如下几个更为一般性的测度指标:
(1)β指数
◣β指数——线点率,是网络内每一个节点的平均连线数目.
◣β=0,表示无网络存在;网络的复杂性增加,则β值也增大.
◣没有孤立点存在的网络,连线数目为n- p,则β指数为
如果地理网络不包含次级亚图,即P=1,则其最低限度连接的 指数值为 .
(2) 回路数k
◣回路是一种闭合路径,它的始点同时也是终点.
◣若网络内存在回路,则连线的数目就必须超过n-p(最低限度连接网络的连接数目).
◣回路数k——实际连线数目减去最低限度连接的连线数目,即
(3) 指数
◣ 指数——实际回路数与网络内可能存在的最大回路数之间的比率.
◣网络内可能存在的最大回路数目为连线的最大可能数目减去最低限度连接的连线数目,即
所以, 指数为
指数也可以用百分率表示
对于非平面网络,其 指数为
指数的变化范围,一般介于[0,1]区间, =0意味着网络中不存在回路; =1,说明网络中已达到最大限度的回路数目.
◣
◣
(4) γ指数
◣γ指数——网络内连线的实际数目与连线可能存在的最大数目之间的比率,对于平面网络,其计算公式为:
γ指数也可以用百分比表示
◣γ指数是测度网络连通性的一种指标,其数值变化范围为[0,1].
◣γ=0,表示网络内无连线,只有孤立点存在;
γ=1,则表示网络内每一个节点都存在与其它所有节点相连的连线.
如何高效玩转共表达网络分析
PCR克隆目的基因序列,限制性酶切后,重组进大肠杆菌表达载体中,比如pET系列载体。这些载体中含有大肠杆菌转录酶能识别的启动子。载体重组之后,转化到大肠杆菌中,就可以表达了。要达到高效表达,还要对序列中稀有密码子、诱导时机及培养温度进行调整。
知识营销cpm投放测试问题
知识营销cpm产品是一个在知识频道提供按曝光计费的产品,提供了在知识频道以较为原生的样式赋予的展示权益,并给予转化通路。为广告主知识营销开辟新的投放方式,可以有更多灵活方式供选择
如何高效玩转共表达网络分析
◣若网络内存在回路,则连线的数目就必须超过n-p(最低限度连接网络的连接数目).◣回路数k——实际连线数目减去最低限度连接的连线数目,即(3) 指数◣ 指数——实际回路数与网络内可能存在的最大回路数之间的比率.◣网络内可能存在的最大回路数目为连线的最大可能数目减去最低限度连接的连线数目,即所以, 指数为指...
转录组测序技术和结果解读(十二)——共表达网络
共表达网络分析流程主要包括:数据准备,通常为转录组测序数据;数据预处理,包括数据清洗、去除噪声等;共表达分析,利用统计学方法计算基因间表达量的关联度,构建网络;结果展示,采用软件如Cytoscape进行可视化,图中各节点表示基因,连线代表共表达关系。结果展示中,共表达网络通常展示为模块化结构,每个模...
如何快速高效的进行转录组数据分析?
对于科研人员而言,转录组数据分析是发表文章的重要环节。众多深入分析如关键基因筛选、GO注释图、互作网络图等,如何高效进行?首先,转录组数据分析需要有针对性,主要分为四类:全面基因挖掘、差异基因挖掘、表达量挖掘和高级工具挖掘。全面基因挖掘包括对所有基因进行深入研究,通过基因名称、注释和序列分析...
RNA-seq数据的基因共表达网络分析
利用网络进行推断:可以使用表达量数据、已知的转录因子、ChIP-ChIP或ChIP-seq、时间序列等,因为网络是有向、交叉 的,所以可以判断许多的关系信息 说到网络,就要看一下 有向和无向网络:构建共表达网络的关键步骤:对于多个分组信息,需要生成几组两两组合的差异比较矩阵(取决于表型数据中的因子信息)...
RNA-seq入门实战(十一):WGCNA加权基因共表达网络分析——关联基因模块与...
在实际操作中,首先准备数据,通过读取fpkm表达矩阵,并进行log2(x+1)转化。接着,可以对数据进行质量判断,绘制系统聚类树,并根据数据选择最佳阈值power。构建加权共表达网络,可以采用一步法或分步法,调整参数以识别基因模块。关联基因模块与表型可以通过绘制热图和箱线图进行,这有助于发现与特定表型...
WGCNA共表达流程-纯代码版
尽管共表达网络不能直接揭示因果关系,但对比分析可以揭示差异性基因。构建WGCNA网络时,推荐使用至少20个样本,RNA-seq数据深度需达到每样本100 million reads。为增强网络稳定性,可采用bootstrapping来消除系统误差影响。输入数据处理是关键步骤,比如测试的3600个基因和多份样本数据。原始数据应为基因×样本...
WGCNA权重基因共表达网络分析需要什么样的数据
WGCNA是用来分析基因表达数据的,可以通过基因的表达数据找到基因中表达模式相同或者相类似的模块,理论上这个模块中的基因都是发挥某一个生物学功能的模块,具有相同的表达模式。所以WGCNA分析需要的数据就是数值型的表达数据,给一个数值矩阵或数据框都可以。
基因共表达聚类分析及可视化
共表达基因的寻找是转录组分析的关键环节,对于样品数量多的情形,WGCNA方法适用;而当样品数量较少时,可以直接通过聚类分析,如K-means、K-medoids(相对K-means更稳定)或Hcluster,以及通过设定pearson correlation阈值来筛选共表达基因。以下将进行K-means和K-medoids聚类操作的实战演示,包括如何进行聚类...
WGCNA权重基因共表达网络分析需要什么样的数据
描述基因表达的关联模式的R包。一般来说需要两个文件,多个样本的基因表达量(fpkm矩阵),可以根据表达量可以计算相关性,还有一个就是所谓的权重,简单的解释就是这些样本中的一些性状或者条件,比如重量、高度、应激条件等等,最后的分析相当于把基因表达与条件结合起来分析两者之间的关联性或相关性。