【技术贴】如何从数据库挖掘基因并筛选TagSNP(医学篇)(2)
发布网友
发布时间:2024-10-08 17:44
我来回答
共1个回答
热心网友
时间:2024-11-21 00:11
上篇重点讲述了使用R程序包clusterProfiler对数据库中的疾病相关基因进行富集分析的方法,本篇将重点介绍如何筛选出重要基因后的TagSNP。
技术路线
首先,我们可以从上篇获取到重要通路中的富集基因列表。通过这个基因列表,我们可以从千人基因组计划的网站下载汉族人群的SNP基因型数据,或者从NCBI获取基因的物理位置信息,然后在ENSEMBL的VCF to PED工具下载汉族人群Phase3的基因型数据。这里主要介绍第二种方法。
基因SNP中国人群数据
1.NCBI获取目的基因物理位置信息
登录NCBI网站(ncbi.nlm.nih.gov/),搜索框选择“gene”,然后粘贴基因名称(例如APOE)点击search。
在搜索结果中,选择homo sapiens(human)的结果,点击进入。
继续第一个人的APOE,在弹出的详细介绍中,找到基因组位置,找到APOE基因在Grch38.0基因组中的物理位置。例如:APOE在Grch38.0基因组物理位置为chr19:44905796..44909395,略微修改一下格式:19:44905796-44909395
请注意:物理位置输入均为英文输入法,否则在下一步会出错。
2.利用ensembl在线工具获得Haploview4.2软件输入格式文件
Haploview4.2软件导入基因型文件格式为ped文件,因此根据基因物理位置利用ensembl在线工具Vcf to Ped转换工具获取汉族人群的目的基因SNP基因分型信息。具体操作如下:a.进入Ensembl官网(asia.ensembl.org/index....),点击“tools”,选择vcf to ped converter工具。
也可以直接点击链接 asia.ensembl.org/Homo_s...到这个转换工具。给此次转换命名一个project名称,如APOE;将上一步查询到的基因物理位置输入到region lookup对应的文本框;Select one or more phase 3 populations处选择CHB/CHS均可;Base format小编习惯选Numbers;Biallelic only处打钩,否则Haploview也会报错。其他参数默认,点击run,等待job运行结果即可。
运行完成以后的页面是这样子的。点击view result,弹出数据文件下载按钮。
两个download的都需要下载下来,两个文件一个是.info文件,存储的是SNP的编号、位置信息,一个是.ped的压缩文件,下载后需要将该文件解压缩后,与info文件放在同一个目录下。
SNP功能注释
将上一步info文件中的SNP信息在VEP在线注释工具(asia.ensembl.org/Multi/...)中进行功能注释。给自己此次的注释工作起个名字,将SNP info中的rs号列表粘贴在input data的方框里。其他默认参数即可,下拉点击run按钮即可。
注释完成的界面如下所示,查看结果点击“view result”。
结果界面如下所示,在Download选项,选择txt格式下载,拖动到excel表格中可以规范打开文件。
筛选注释为错义突变、提前终止、剪接位点、调控区变异(regulatory_region_variant)等功能变异的SNP位点作为下一步筛选TagSNP的目标筛选范围。可在上一步下载的info和ped文件中对应选择删除非功能SNP,需要同时删除info和ped文件中对应的数据,也可以在下一步haploview软件中只选择功能SNP位点进行TagSNP计算。
TagSNP筛选
安装Haploview4.2软件后,按照下列操作步骤获得TagSNP及其代表的侧翼SNP位点信息。
a.打开Haploview软件,会自动弹出一个欢迎界面,默认第一种输入格式linkage format,是我们所需要的输入格式。如果是已经运行,想打开新的数据,请点击File,选择open new data。选择linkage Format格式,Data File点击Browser选择之前保存的ped文件,info文件可以自动识别进来。也可Browser手动选择info文件。其他参数不变,点击OK导入数据。
b.导入数据后,进入check marker界面。根据哈温平衡的cutoff值,设为0.05,MAF(minor allele frequency)cut off值也设为0.05,其他可以默认,点击rescore markers,自动筛选符合条件的SNP;根据筛选出的功能SNP编号,手动取消那些非功能SNP位点。全部选择完成后,点击Tagger。
c.TagSNP筛选及结果导出。这里表格区域显示在check markers筛选的SNP,设置筛选条件,一般默认是r2阈值为0.8,其他参数可不调整。确认好参数后,点击run tagger,弹出筛选结果。
Run tagger结果界面如下所示,点击Dump tags file,自己命名文件名,后缀为.txt,点保存可获得TagSNP列表。在File中选择“Export current table to TEXT”,可同时输出TagSNP及其代表的多个SNP对应关系。
通过这两期文章,您是否已经掌握了如何筛选基因及TagSNP呢?如果仍有问题,欢迎在下方留言或直接联系我们!技术部任经理:15936203065(微信同号)