LD连锁不平衡介绍
发布网友
发布时间:2022-12-19 21:00
我来回答
共1个回答
热心网友
时间:2023-09-22 07:59
连锁不平衡指的是在某一群体中,两个基因同时遗传的频率大于随机组合的频率。
用于衡量连锁不平衡程度的指标主要有 D、D'和r2 三个指标,其计算原理见: 连锁不平衡:linkage disequilibrium
D ≠ 0,两基因间连锁不平衡(D值无法比较不同基因之间连锁程度的大小, 因为它是根据每个基因allel的频率计算出来的)。D'值可以看做是归一化之后的D值,归一化之的值可以用于比较不同基因连锁程度的大小。 通常情况下,会通过r值的平方来表征连锁不平衡程度,r平方等于0时,表示完全连锁平衡,独立遗传;r平方等于1时, 表示完全连锁不平衡。
r2和D'反映了LD的不同方面。 r2包括了重组和突变,而D'只包括重组史 。D'能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D'不适合小样本群体研究。
理论上来说任意两个基因之间都可能存在连锁不平衡,但是 实际操作中,认为只有一定区间范围内的基因会存在连锁不平衡 ,距离大于区间的基因,两者出现连锁不平衡的概率非常小,所以就不去计算。
连锁不平衡的结果,通常采用heatmap热图的形式进行展示 ,haploview给出的LD heatmap 示例如下:颜色从白色到红色,代表连锁程度从低到高,方框中的数值为r2,为了美观,这里将r2 乘以了100。
LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D'来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD的改变。
LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,往往差异非常大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。
LD衰减距离通常指的是:当平均LD系数r2 衰减到一定大小的时候,对应的物理距离。“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:a)LD系数降低到最大值的一半;b)LD系数降低到0.5以下;c)LD系数降低到0.1以下;d)LD系数降低到基线水平(注意,不同物种的基线值是不同的)。
值的获取:成对计算指定距离范围内的所有SNP的r2 值,按区间取平均。
LD衰减距离的应用
A. 判断GWAS所需标记量,决定GWAS的检测效力以及精度
GWAS标记量 = 基因组大小/LD衰减距离
B. 辅助分析进化与选择
在同一个连锁群上,LD衰减的慢说明该群体受到选择。一般来说,野生群体比驯化改良群体LD衰减快,异花授粉植物比自花授粉植物LD衰减快。比如玉米:地方品种1kb,自交系2kb,商用自交系100kb。
Haplotype Block(单体型块)
单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域。单体型块分析可以用于筛选tag SNP、确定候选基因的范围等。
如果GWAS检测到显著关联的区间,可以通过进一步绘制局部的LD单体型块图,来进一步 判断显著相关的SNP和目标基因间是否存在强LD关系 。
单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域。单体型块分析可以用于筛选tag SNP、确定候选基因的范围等。
如果GWAS检测到显著关联的区间,可以通过进一步绘制局部的LD单体型块图,来进一步 判断显著相关的SNP和目标基因间是否存在强LD关系 。
--vcf 指定输入的文件为vcf格式,如果是bed格式文件,使用--bfile接文件前缀,如果数据是ped、map格式,使用 --map接.map文件,--ped接.ped文件
--allow-no-sex 表示允许没有性别信息
--r2表示计算r2值
--ld-window 表示计算LD的区间,距离小于这个值的标记对都要进行LD的计算
--ld-window-kb 默认为1Mb,表示只对距离在1Mb之内的SNP位点进行分析
--ld-window-r2 0.2 这个参数只能和 --r2参数搭配使用,默认值为0.2,对输出结果进行过滤,只输出r2大于该参数的r2值
参考: haploview进行连锁不平衡分析
haploview是基于Java的工作环境,,如果电脑没有java的话,需要提前安装
https://www.broadinstitute.org/haploview/haploview
LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,往往差异非常大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。
LD衰减距离通常指的是:当平均LD系数r2 衰减到一定大小的时候,对应的物理距离。“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:
a)LD系数降低到最大值的一半;
b)LD系数降低到0.5以下;
c)LD系数降低到0.1以下;
d)LD系数降低到基线水平(注意,不同物种的基线值是不同的)。
值的获取:成对计算指定距离范围内的所有SNP的r2 值,按区间取平均