发布网友 发布时间:2022-09-20 22:19
共1个回答
热心网友 时间:2023-11-07 18:32
单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA (群体RNA)测序所得不到的信息,对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维,以及聚类。那么在做这些工作之前的质控,会影响到整个分析的成败。这篇文章我就来给大家讲讲单细胞质控的那些事儿。
首先,我们介绍转录表达中的一个现象:transcriptional bursting。什么叫做trancriptional bursting? 如下图:
我们都知道,基因的转录和表达是有周期性的。当基因的转录被激活时,mRNA的水平会突然上升,然后慢慢下降,而相应的蛋白水平的变化会有一定的滞后。
这种周期的频率,以及每次波动的大小,在RNA分析中都会影响最终的表达量(可以是FPKM值、RPKM值)。这种周期性的转录现象,就是同transcriptional bursting有关。
我们在分析RNA表达量的时候,会发现这样一个现象,很多重要转录*因子的FPKM值往往比较低。推测可能他们只在某一特定的时间段在特定的细胞中表达。
最终,我们拿到的结果可能就与实际情况出入很大,如下图所示。
我们来看看单细胞实验的整体流程如下图,分析一下哪些环节会带来偏好性,以及如何发现和质控 。
我们在做单细胞测序的时候,首先要做细胞分离。细胞分离必须要在短时间内完成,否则会影响到细胞的状态,甚至可能导致RNA从细胞中漏出。
从组织中分离出细胞往往很困难,具体方法可以参考《Tissue Handling and Dissociation for Single-Cell RNA-Seq》这本书。这里总结一下从组织中分离出单细胞可能遇到的问题:
在a图和b图中,一些高表达的基因被证明是由细胞分离的操作引起的。(van den Brink et al. Nature methods 2017)。
在细胞分离的过程中可能存在着污染。如图所示,在day3的样本中都存在着Neutrophil细胞的marker基因的表达。这有可能就是样本中存在着RNA的污染。
解决的方法就是利用空的droplets 来估计背景信号,利用软件SoupX来移除背景噪音(Young MD, BiorXiv 2018)。
我们在做细胞分选的过程中还会遇到如下的问题:
对于不同的单细胞测序的策略总结如下。因此,对于自己研究的组织应该采用什么样的单细胞策略,需要十分慎重。
另外,细胞质量比较差、亦或有很多死细胞或者细胞碎片的话,也会造成有很多droplet中存在多个细胞。如下图所示:有三个冻存样本有很高比列的droplet存在多个细胞。
在实际进行数据分析的过程中,这些droplet有可能会被单独聚为一类,也有可能会富集在两个细胞群的中间区域。
我们通过如下情况来判断是否存在douplet(含有多个细胞的液滴):
目前,有一系列的软件可以帮助我们筛选到doublet,例如:
检测doublet的软件算法都非常类似,基本的原理非常简单,有下面几个步骤:
在做单细胞测序的之前,需要对细胞进行裂解。不同的细胞组织,裂解条件也会不一样。如果裂解条件过于严格,就会影响文库制备。
构建文库同时加入浓度已知的spike-in,其中包括:
Spike-ins 的用途
1.去除技术噪音
2.检测捕获效率
3.计算RNA的起始量
4.数据的normalization
Spike-ins的问题
1.Spike-ins与内源基因还是有区别的,如在扩增偏好性方面
2.一般不用于drop-seq
sample Multiplexing(请参考以下网址) 很多时候并不好用。每个细胞的total reads依旧会有很大的区别。
https://emea.illumina.com/science/technology/next-generation-sequencing/plan-experiments/multiplex-sequencing.html
测序过程也有可能受到很多因素的影响:
1.文库复杂性太低,容易形成primer dimer
2.污染问题,请参考:
https://www.illumina.com/science/ecation/minimizing-index-hopping.html )
本次的分享就到这里,相信大家对整体的实验有了一定了解。下一篇我们继续讲解质控方面的细节。