问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

CMP分析流程

发布网友 发布时间:2022-12-21 21:00

我来回答

1个回答

热心网友 时间:2024-12-14 23:49

**(1)在xx范围内含有至少2个CG;(2)reads1 barcode区域的质量值控制;(3)barcode一样的reads仅保留一个 **

(1)在xx范围内含有至少2个CG

(2)reads1 barcode区域的质量值控制

TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHHCGCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHCGHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHCGHHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHCGHHHCH

(3)、barcode一样的reads仅保留一个

重复1.5、noch_arra 过程,输入文件为$s.5bp.cgcgmat.gz

s07.Pcgibed:$s.5bp.cgcgmat.rmd.gz s07.Tcgibed:$s.5bp.cgcgmat.gz T- s07.Tcgibed/$s.cgcgmat P- s07.Pcgibed/$s.cgcgmat.qc uPnorm- s07.Pcgibed/$s.cgcgmat.qc*(qc-dCGI-$s/rmd-dCGI-$s)
uP-xxx:对于血浆样本,在MePM基础上乘以 qc-dCGI-$s/rmd-dCGI-$s

P和T的差别在于P算的UMI,T算的MePM

fmg9_m.clean:
clean reads 条数
fmg9_m.qc5.clean:
对clean reads再次做前5bp的qc后的reads
fmg9_m.filter:去掉前6bp后12bp后剩余的reads数
fmg9_m.rmfilter:去掉含有3个及以上nonCG的reads
fmg9_m.unique_mapping:bismark mapping到基因组
fmg9_m.cgcgmat:在-3~+3bp(含3bp)(mapping位点为0)中至少有2个CG
fmg9_m.cgcgmat.qc:在fmg9_m.cgcgmat的基础上,reads的前5bp做过qc
fmg9_m.cgcgmat.qc.rmd:用UMI去掉PCR重复序列
P-CGI-fmg9_m:用UMI去掉PCR重复后落在CGI中的序列
T-CGI-fmg9_m:不用UMI去掉PCR重复后落在CGI中的序列
qc-dCGI-fmg9_m:qc前5bp,落在dCGI区域中的reads(dCGI有3024个,分别是什么
呢?)
qc-dCGI2-fmg9_m:qc前5bp,落在dCGI2区域中的reads(dCGI2有9513个,分别是
什么呢?)
rmd-dCGI-fmg9_m:qc前5bp,去掉UMI,落在dCGI中的reads
rmd-dCGI2-fmg9_m:qc前5bp,去掉UMI,落在dCGI2中的reads
filter2_nonCGfmg9_m:1-("total methylated C in CHG"+"total methylated
C in CHH" )/("total methylated C in CHG"+"total methylated C in
CHH" +"total C to T conversions in CHG context"+"Total C to T
conversions in CHH context"))完成filter而未去掉含3个及以上nonCG的第二端序列然后bismark比对结果
filter1_nonCGfmg9_m :同上,第一端序列

不光用MePM衡量甲基化程度,还用测到reads含有的甲基化位点的C/C+T来衡量。

一个小问题:是否应该同时考虑reads1和reads2的信息,为了解决这个问题,
应该计算reads1和reads2重叠区域是否很多,如果基本上重复,那么reads1和
reads2的信息是一致的,仅需要考虑一条reads即可,如果reads1和reads2重叠
区域少,那么应该同时考虑两条reads的情况。这样计算有点麻烦,因为不能分别
把reads1和reads2的C加起来,C+T加起来,然后C/C+T,原因是这样会导致重叠
区域权重增大,应该是上述的C-重叠区域C,上述C+T-重叠区域C+T,然后C/C+T
才是真的甲基化程度。所以我觉得考虑一条reads足以。

正链序列(起始点)落在正链cgcgcgg上,负链序列(起始点)落在负链cgcgcgg上

问:为什么要对单碱基数据也做normalise?
答:文老师发现一个肝癌数据中C特别高,但是癌症程度并不算太高,而是由于测序深度太深造成的。那么如果只关注C的绝对值,测序越深,C的绝对值就会越高。如果测饱和了(每个阳性位点都测到了),C的绝对值不会因为测序而升高(去掉PCR plicate后),没有测饱和的时候,用绝对值计算是要受到测序深度影响的。另外,两个病人释放不同量的ccfDNA,而其中癌症相关的都是一条,因为取血量一样,都是5ml,那么癌症相关DNA浓度一样,但是测序得到的结果(同样测序深度)就不一样了,解决办法:饱和程度。测饱和可以解决以上两个问题。

问:为什么不用CGI-qc/CGI-rmd作为plication rate,既然T和upnor的方法本质上是一样的,upnor的优势是什么?
答:upnor的plication rate是一样的,而去重的时候,不可能每个位点去掉重复的比例一致,只要是乘以一个固定的plication rate,T带来的随机性就被去掉了,至于能否用CGI-qc/rmd-CGI作为plication rate,也要筛选那些低拷贝的地方吧,不筛选得到的plication rate,高拷贝的地方占权重会大。

1. read1_2_filter_adapter.pl

2.rm_firstx_leny.pl

3.ch3deleate.pl

4.s05.noch_arrange

5.extractCGx2.pl

6.qc5bp.pl

7.rmppcrv2.pl

8、CGIcgcgcggv2.sh

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
豆瓣酱放多了怎么补救 鑫创sssbd量产工具 为了了解某校1500名学生的体质状况,随机调查了这个学校内一定数量学生... 564÷85的竖式如何列? 上海房屋过户 要准备什么资料 个人卖房要提供哪些资料 房屋交易资料需要哪些 房子买卖要哪些资料 房产交易需要什么资料 ...让重锤自由下落,打出的一条纸带如图所示,图中 为什么在《算法导论》中,lg变成了以2为底??? 兰州交通大学博文学院 兰州理工大学科学技术学院 青海大学昆仑学院... 本科提前批常规志愿什么意思 怎样与人沟通交流能力能更好呢? 如何与别人有效的沟通交流 求Windows1.0(不是Windows10,微软最早的系统)百度网盘分享 ...的Windows系统吗?如果可以,最低可以下载多少系统?Windows 1.0... 苏教版四年级数学上册商不变的规律的学生预习要解决什么问题 cpa出分时间2022 2022年注会成绩出来了吗 cpa成绩公布时间2022 22年注会成绩什么时候出 可溶性采光瓦是pC材质吗? 2022注册会计师成绩出来了吗 注会什么时候出成绩 ...String sql="insert into table1 values(...)" 2022注会成绩出来了吗 世宝机械有早饭吗 杭州新世宝电动转向有限公司是上市公司吗 iqoo11比iqoo10的续航提升多长时间 大碗面和波纹面哪个好 大碗宽面和伊面的区别 赞美城市翻天覆地的变化 城市变化的短句子 闪电划破了夜空扩句青岛市正在发生着日新月异的变化 城市面貌的变化描写 网线不够长,购买“网络直通头”用以连接,市面价格大概多少? 网线一分二连接头怎么用,就是两块钱一个的哪种的 兔子应吃窝边草? 山海经最丑的在第几页 山海经中,形象最为丑的异兽是谁? 山海经里面谁最丑? 我想找一家比较好的网站设计公司,设计要有特色,要根据企业的特点来设... 论述建设项目的组成? 日升软件羽绒服充绒量怎么计算 怎么唤醒电脑休眠黑屏? 等差数列奇数项和是什么? 和路通手机怎么打不开不兼容? 层的部首和组词 上海现在的防疫政策是怎样的