问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

宏基因组分析笔记之binning

发布网友 发布时间:2022-11-29 19:20

我来回答

1个回答

热心网友 时间:2023-10-28 13:08

一、宏基因组简介:

reads→(根据overlap组装)→ contig重叠群 → (构建454 paired-end库或illumina meta-paired库,组装)→ scaffold → (binning)→ chromosome基因组草图

Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.

Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

二、binning简介:

宏基因组分箱(Binning)是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程。宏基因组分箱技术有助于获得不可培养微生物的全基因组序列,获得新物种的基因组序列和功能,预测未知物种的培养方法等等。

1,统计contig深度

第一列:contigName

第二列:contigLen

第三列:totalAvgDepth

第四列:library1.sorted.bam

第五列:library1.sorted.bam-var

第六列:library2.sorted.bam

第七列:library2.sorted.bam-var

2,用metabat软件binning

3,CheckM软件做基因组的质量评估

基因组组装或者宏基因组binning获得的基因组草图,首先需要评估其质量,包括基因组完整度、污染度、序列分布等信息。

https://mp.weixin.qq.com/s/2cggAwQbRRWG9WfjEj0t9Q

三、binning原理

1、binning的依据:

(1)根据核酸组成信息来进行binning:k-mer frequencies(来自同一菌株的序列,其核酸组成是相似的):如根 据核酸使用频率 (oligonucleotide frequency variations),通常是四核苷酸频率(tetranucleotide frequency), GC含量 和 必需的单拷贝基因 等

(2)根据丰度信息来进行binning:来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。如,某一细菌中有两个基因,A和B,它们在该细菌基因组中的拷贝数比例为 A:B = 2:1,则不管在哪个样品中这种细菌的数量有多少,这两个基因的丰度比例总是为 2:1。但这种方式需要较大样本量,一般至少要50个样本以上,且至少要有2个组能呈现丰度变化 ( 即不同的处理、不同的时间、疾病和健康、或者不同的采样地点等 ) ,每个组内的生物学重复也要尽量的多。

(3)同时依据核酸组成和丰度变化信息:利用核酸组成信息和丰度差异综合计算距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件大多是NCA算法。

(4)根据基因组甲基化模式:不同的细菌,其基因组甲基化模式不同,平均一种细菌有3种特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平转移是细菌甲基化组多样性的驱动因素。虽然 MGEs 在不同个体的拷贝数不同,但是都存在,因此具有相同 MGEs 的细菌个体,其总遗传物质(包括染色体和 MGEs )都会受到相同的MTase的作用而得到相同的甲基化模式。

2、binning

原始的clean reads,还是从组装成的contig,还是从预测到的gene,都可以binning,暂且分为reads binning, contig binning和 genes binning。应用最广泛的就是基于genes binning 和 contig binning

四、binning后续分析

关联分析

即通过binning得到的bins(暂且简称为bins,更确切的说是strain-level clusters 或strain-level taxonomic units)可以进行宏基因组关联分析以及多组*合分析,将特定功能代谢产物与特定物种、特定基因进行关联研究,推动其因果机制的探究,为疾病监控、环境监测提供了菌株水平的生物靶标。

单菌组装

通过对binning得到的bins进行后续组装,可以得到很多不能在实验室里培养的细菌、古菌、病毒的基因组草图,然后根据单菌组装结果进行菌株水平的基因和功能注释、比较基因组分析、进化分析等,使我们得以洞察这些无法在实验室培养获得的菌株的生态适应机制,营养互作机制和新陈代谢功能等,可以研究在生态环境和复杂疾病中起重要作用的菌种以及致病菌和宿主的互作机制及其微进化机制。

参考:

https://www.jianshu.com/p/66ab14988a74

https://www.jianshu.com/p/f010020a2859

https://mp.weixin.qq.com/s/2cggAwQbRRWG9WfjEj0t9Q

http://www.pinlue.com/article/2018/09/1804/497268180444.html

https://www.jianshu.com/p/117441ac6eb8
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
为什么来大姨妈胸会胀 少儿学什么舞蹈 青年学什么舞蹈好 成年人学什么舞蹈 福州企业最低工资标准 2013年厦门的底薪是多少 生产要素的需求有哪些性质 生产要素的需求有何特点? 什么是生产要素需求 微观经济学要素需求什么是条件要素需求?它和要素需求有什么不同?_百度... 用一句话,你会怎么概括《狮子王》? 《被嫌弃的松子的一生》中的视听体验 xboxfifa调整颜色 wemod破解是骗局吗 星河战队人类指挥部怎么弄无限人口 浴盐是毒品吗 宝马5系后门锁芯不回位怎么回事 tcl指纹锁默认管理员密码 惠州指纹锁那个品牌好 儿子车祸她花光了所有积蓄,为救孩子,她刷了前夫的。是哪部小说情节 适合毕业晚会唱的歌有哪些 正新鸡排的一串烤鸭胗有多少热量 谁能告诉我3.2亿全部完整的小写写法是什么? 3.2亿韩元对于中国人来说多吗 3.2亿用科学计数法表示为多少 大哥还是大哥!成龙首场直播获3.2亿点赞,大哥的魅力为何会这么大? 3.2亿点赞是多少 3.2亿等于多少元? 教学一体机75寸希沃耗电量 应城现在有几个镇? 宏基因组 - (1)基因预测与基因相对丰度的计算 压力测试99.7稳吗 framework初了解与必备技能 急需一个超过3分钟简单好看的民族舞,舞蹈名字,以及哪个民族,急急急。。。。 办理商品房买卖合同产权登记应当注意什么 英语的呀咋写 三星s20美版和国行的区别 2021最吉祥的,2021年能带来好运的微信名字有哪些? 上海公共户口有效期是多久? 诺基亚X3的尺寸。 河南省外贸学校宿舍有空调没? 形容劝人的成语(形容对人真诚的劝告的成语) 关于劝告别人的成语 渐渐造句写人物活动的 金融科技专业导论应增加什么内容 求东北财经大学金融学专业,大一到大四的课程表······谢谢你···· 吃异维a酸闭口会全部爆发吗 异维a酸害了多少人 吃异维a酸爆了好多脓包 吃异维a酸18天痘痘都发炎了到底应不应该用