问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

【技术贴】如何从数据库挖掘基因并筛选TagSNP(医学篇)(2)

发布网友 发布时间:2024-10-08 17:44

我来回答

1个回答

热心网友 时间:2024-11-21 00:11

上篇重点讲述了使用R程序包clusterProfiler对数据库中的疾病相关基因进行富集分析的方法,本篇将重点介绍如何筛选出重要基因后的TagSNP。

技术路线

首先,我们可以从上篇获取到重要通路中的富集基因列表。通过这个基因列表,我们可以从千人基因组计划的网站下载汉族人群的SNP基因型数据,或者从NCBI获取基因的物理位置信息,然后在ENSEMBL的VCF to PED工具下载汉族人群Phase3的基因型数据。这里主要介绍第二种方法。

基因SNP中国人群数据

1.NCBI获取目的基因物理位置信息

登录NCBI网站(ncbi.nlm.nih.gov/),搜索框选择“gene”,然后粘贴基因名称(例如APOE)点击search。

在搜索结果中,选择homo sapiens(human)的结果,点击进入。

继续第一个人的APOE,在弹出的详细介绍中,找到基因组位置,找到APOE基因在Grch38.0基因组中的物理位置。例如:APOE在Grch38.0基因组物理位置为chr19:44905796..44909395,略微修改一下格式:19:44905796-44909395

请注意:物理位置输入均为英文输入法,否则在下一步会出错。

2.利用ensembl在线工具获得Haploview4.2软件输入格式文件

Haploview4.2软件导入基因型文件格式为ped文件,因此根据基因物理位置利用ensembl在线工具Vcf to Ped转换工具获取汉族人群的目的基因SNP基因分型信息。具体操作如下:a.进入Ensembl官网(asia.ensembl.org/index....),点击“tools”,选择vcf to ped converter工具。

也可以直接点击链接 asia.ensembl.org/Homo_s...到这个转换工具。给此次转换命名一个project名称,如APOE;将上一步查询到的基因物理位置输入到region lookup对应的文本框;Select one or more phase 3 populations处选择CHB/CHS均可;Base format小编习惯选Numbers;Biallelic only处打钩,否则Haploview也会报错。其他参数默认,点击run,等待job运行结果即可。

运行完成以后的页面是这样子的。点击view result,弹出数据文件下载按钮。

两个download的都需要下载下来,两个文件一个是.info文件,存储的是SNP的编号、位置信息,一个是.ped的压缩文件,下载后需要将该文件解压缩后,与info文件放在同一个目录下。

SNP功能注释

将上一步info文件中的SNP信息在VEP在线注释工具(asia.ensembl.org/Multi/...)中进行功能注释。给自己此次的注释工作起个名字,将SNP info中的rs号列表粘贴在input data的方框里。其他默认参数即可,下拉点击run按钮即可。

注释完成的界面如下所示,查看结果点击“view result”。

结果界面如下所示,在Download选项,选择txt格式下载,拖动到excel表格中可以规范打开文件。

筛选注释为错义突变、提前终止、剪接位点、调控区变异(regulatory_region_variant)等功能变异的SNP位点作为下一步筛选TagSNP的目标筛选范围。可在上一步下载的info和ped文件中对应选择删除非功能SNP,需要同时删除info和ped文件中对应的数据,也可以在下一步haploview软件中只选择功能SNP位点进行TagSNP计算。

TagSNP筛选

安装Haploview4.2软件后,按照下列操作步骤获得TagSNP及其代表的侧翼SNP位点信息。

a.打开Haploview软件,会自动弹出一个欢迎界面,默认第一种输入格式linkage format,是我们所需要的输入格式。如果是已经运行,想打开新的数据,请点击File,选择open new data。选择linkage Format格式,Data File点击Browser选择之前保存的ped文件,info文件可以自动识别进来。也可Browser手动选择info文件。其他参数不变,点击OK导入数据。

b.导入数据后,进入check marker界面。根据哈温平衡的cutoff值,设为0.05,MAF(minor allele frequency)cut off值也设为0.05,其他可以默认,点击rescore markers,自动筛选符合条件的SNP;根据筛选出的功能SNP编号,手动取消那些非功能SNP位点。全部选择完成后,点击Tagger。

c.TagSNP筛选及结果导出。这里表格区域显示在check markers筛选的SNP,设置筛选条件,一般默认是r2阈值为0.8,其他参数可不调整。确认好参数后,点击run tagger,弹出筛选结果。

Run tagger结果界面如下所示,点击Dump tags file,自己命名文件名,后缀为.txt,点保存可获得TagSNP列表。在File中选择“Export current table to TEXT”,可同时输出TagSNP及其代表的多个SNP对应关系。

通过这两期文章,您是否已经掌握了如何筛选基因及TagSNP呢?如果仍有问题,欢迎在下方留言或直接联系我们!技术部任经理:15936203065(微信同号)
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
挖矿笔记本电脑一般什么配置 ...全五分截图就可以返现两元,可是我截图了发了好评,他们就问我支付宝... 桂林数之城澜庭值得买吗? 华联都市澜庭可以买吗 云荟澜庭可以买吗 海和澜庭值得买吗 澜庭雅致能买吗 仿"瞧"写四个与"看"有关的词 用目旁表示眼的器官的字有那些 用瞅,瞧,盯,瞪,眺,瞥填空。你不要一直怎么着我,我又没做错事 湛江市人民政府行政服务中心机构概况 韩语学习软件哪个好 非深户女五十了,社保9年半,还在公司继续上班,公司可以给我买社保吗? 学韩语的软件哪个好 买房买三楼格局不好的还是买一楼格局好的 学韩语的软件哪个最好 以前己买满十五年征地社保,现单位继续买社保到时怎么算 ...什么话题才能吸引到别人呢 咱们班女生比较多 最好能从中悟出一_百 ... 热鲜肉和冷鲜肉的区别是什么? 一元二次方程:(2x-1)的平方=2x-1 1.解方程:(2x-1)的平方=4(3x+2)的平方 2.若一个一元二次方程,它的二... 鸟类为什么不会在空中相撞 在借贷宝打了欠条没拿到钱 蓝燕护理蓝燕鸟 显卡驱动 3D加速问题 蓝燕科属分类 时间权数是什么意思 亲爱得朋友们,有什么减肥方法吗?因为是学生,所以要简单有效,还要科学... 微店中的佣金是怎么一回事?给他代理了却用的他那个价格,我卖出去这不... (2x-1)的平方=(3x+1)的平方 (x+1)(x-1)=(2根号2)x 一元二次方程两道... 消除发动机黄灯的窍门是什么 我的脸颊总是红红的,别人都说我关公脸,小时候没有的,五六年前开始的,怎... 湛江市人民政府行政服务中心机构职能 飞机的行李箱不能超过多少斤 湛江市人民政府行政服务中心内设机构 我的脸颊总是红红的,很不正常,怎样可以让他不红变白 湛江市人民政府行政服务中心机构领导 我的皮肤薄很容易过敏, 两个脸颊总是红红的什么化妆品合适我 为什么我的脸全年都是红红的啊?? 求一本穿越到瓦罗兰大陆的小说名字 一部英雄联盟小说主角穿越过来遇见娜美在洗澡 许多人都穿越到了瓦罗兰... QQ空间FLASH显示为红叉的问题 为什么我的电脑好多网页打不开? 笔记本电脑为何网速慢 呼和浩特市华瑞达观体育文化传播有限公司怎么样? 班组管理技能作者简介 临沂安登贸易有限公司怎么样? vlookup函数如何引用另一个工作表中的由另一个公式计算的值,返回的为... 我县是著名的“西瓜之乡”,在长期种植西瓜的过程中,科研人员和瓜农不断... vl00kup应用另一个工作表数据时 =VLOOKUP(C2,Sheet2!A3:J5,Sheet2!C...