发布网友 发布时间:2022-12-21 21:00
共1个回答
热心网友 时间:2024-12-14 23:49
**(1)在xx范围内含有至少2个CG;(2)reads1 barcode区域的质量值控制;(3)barcode一样的reads仅保留一个 **
(1)在xx范围内含有至少2个CG
(2)reads1 barcode区域的质量值控制
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHHCGCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHCGHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHCGHHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHCGHHHCH
(3)、barcode一样的reads仅保留一个
重复1.5、noch_arra 过程,输入文件为$s.5bp.cgcgmat.gz
s07.Pcgibed:$s.5bp.cgcgmat.rmd.gz s07.Tcgibed:$s.5bp.cgcgmat.gz T- s07.Tcgibed/$s.cgcgmat P- s07.Pcgibed/$s.cgcgmat.qc uPnorm- s07.Pcgibed/$s.cgcgmat.qc*(qc-dCGI-$s/rmd-dCGI-$s)
uP-xxx:对于血浆样本,在MePM基础上乘以 qc-dCGI-$s/rmd-dCGI-$s
P和T的差别在于P算的UMI,T算的MePM
fmg9_m.clean:
clean reads 条数
fmg9_m.qc5.clean:
对clean reads再次做前5bp的qc后的reads
fmg9_m.filter:去掉前6bp后12bp后剩余的reads数
fmg9_m.rmfilter:去掉含有3个及以上nonCG的reads
fmg9_m.unique_mapping:bismark mapping到基因组
fmg9_m.cgcgmat:在-3~+3bp(含3bp)(mapping位点为0)中至少有2个CG
fmg9_m.cgcgmat.qc:在fmg9_m.cgcgmat的基础上,reads的前5bp做过qc
fmg9_m.cgcgmat.qc.rmd:用UMI去掉PCR重复序列
P-CGI-fmg9_m:用UMI去掉PCR重复后落在CGI中的序列
T-CGI-fmg9_m:不用UMI去掉PCR重复后落在CGI中的序列
qc-dCGI-fmg9_m:qc前5bp,落在dCGI区域中的reads(dCGI有3024个,分别是什么
呢?)
qc-dCGI2-fmg9_m:qc前5bp,落在dCGI2区域中的reads(dCGI2有9513个,分别是
什么呢?)
rmd-dCGI-fmg9_m:qc前5bp,去掉UMI,落在dCGI中的reads
rmd-dCGI2-fmg9_m:qc前5bp,去掉UMI,落在dCGI2中的reads
filter2_nonCGfmg9_m:1-("total methylated C in CHG"+"total methylated
C in CHH" )/("total methylated C in CHG"+"total methylated C in
CHH" +"total C to T conversions in CHG context"+"Total C to T
conversions in CHH context"))完成filter而未去掉含3个及以上nonCG的第二端序列然后bismark比对结果
filter1_nonCGfmg9_m :同上,第一端序列
不光用MePM衡量甲基化程度,还用测到reads含有的甲基化位点的C/C+T来衡量。
一个小问题:是否应该同时考虑reads1和reads2的信息,为了解决这个问题,
应该计算reads1和reads2重叠区域是否很多,如果基本上重复,那么reads1和
reads2的信息是一致的,仅需要考虑一条reads即可,如果reads1和reads2重叠
区域少,那么应该同时考虑两条reads的情况。这样计算有点麻烦,因为不能分别
把reads1和reads2的C加起来,C+T加起来,然后C/C+T,原因是这样会导致重叠
区域权重增大,应该是上述的C-重叠区域C,上述C+T-重叠区域C+T,然后C/C+T
才是真的甲基化程度。所以我觉得考虑一条reads足以。
正链序列(起始点)落在正链cgcgcgg上,负链序列(起始点)落在负链cgcgcgg上
问:为什么要对单碱基数据也做normalise?
答:文老师发现一个肝癌数据中C特别高,但是癌症程度并不算太高,而是由于测序深度太深造成的。那么如果只关注C的绝对值,测序越深,C的绝对值就会越高。如果测饱和了(每个阳性位点都测到了),C的绝对值不会因为测序而升高(去掉PCR plicate后),没有测饱和的时候,用绝对值计算是要受到测序深度影响的。另外,两个病人释放不同量的ccfDNA,而其中癌症相关的都是一条,因为取血量一样,都是5ml,那么癌症相关DNA浓度一样,但是测序得到的结果(同样测序深度)就不一样了,解决办法:饱和程度。测饱和可以解决以上两个问题。
问:为什么不用CGI-qc/CGI-rmd作为plication rate,既然T和upnor的方法本质上是一样的,upnor的优势是什么?
答:upnor的plication rate是一样的,而去重的时候,不可能每个位点去掉重复的比例一致,只要是乘以一个固定的plication rate,T带来的随机性就被去掉了,至于能否用CGI-qc/rmd-CGI作为plication rate,也要筛选那些低拷贝的地方吧,不筛选得到的plication rate,高拷贝的地方占权重会大。
1. read1_2_filter_adapter.pl
2.rm_firstx_leny.pl
3.ch3deleate.pl
4.s05.noch_arrange
5.extractCGx2.pl
6.qc5bp.pl
7.rmppcrv2.pl
8、CGIcgcgcggv2.sh