wm视讯合理猜测,这应该是作者因为其使用的差异分析方法受到了reviewer(s)的质疑,但是作者非常勇(头)敢(铁),在文章最后给出了这样一段作为rebuttal。
有意思的是这里引用的两篇文章,wm视讯被作者拿来左右互搏,用以抵消对自己分析方法的质疑(实际上两篇文章算不上contradictory results)。
因此,他们认为,如果没有考虑到“同一个样本中不同细胞之间存在一定相关性而不是绝对的相互独立的重复”的话,那么由此得到的统计结果无疑是存在问题的,即可能导致更多的type 1 error(false postive,即假阳性)。
generalized linear mixed model (GLMM)有着明显更少的type 1 error。在概率和统计中,Tweedie分布是一系列概率分布,包括纯连续正态分布,伽玛分布和反高斯分布,纯离散标度泊松分布以及零质量正分布的复合泊松-伽玛分布类,但在其他方面是连续的。wm视讯Tweedie分布是指数分散模型的特例,通常用作广义线性模型的分布。
障碍模型的使用通常是由于数据中的零过多而引起的,而在更标准的统计模型中没有充分说明这一点。
他们分析发现,现在广泛用于单细胞数据差异分析的14种方法得到的差异基因和对应数据集中bulk data得到得差异基因之间存在着很大区别。出乎意料的是,其中一致性表现最好的几种都是pseudobulk方法(
)。以是否和bulk data得到的差异基因一致作为评判依据可能不太妥当,于是他们对含有ERCC spikein的数据进行分析,结果也同样表明pseudobulk方法有着更好的效果(
)。因此他们认为,pseudobulk类方法之所以能得到更好的结果,wm视讯本质上可能是因为这类方法保留了生物学重复的信息。而采取pseudo-individual或者pseudo-replicate处理之后,相关的信息并不能很好的体现在数据之中,因此,得到的结果不能保证很高的准确度。同理,wm视讯对单细胞数据进行直接分析的方法也是直接将pseudoreplication问题暴露了出来,因此得到的结果会有很多false discoveries。
通过进一步分析基因表达的方差(variance),他们发现pseudoreplicates的处理会得到相对于原来样本的生物学重复间更小的方差(
)。他们发现,这样的处理虽然不会改变样本组间的均值差异,但是改变的方差(variance)却使得一些基因有了统计上的显著差异(
)。为了去解释为什么表达量更高的基因更容易被错误地认定为差异基因,他们接下来分析了方差变化与表达量的关系(Figure 7)。他们的结果显示,在表达更高或者生物学重复间方差更大的基因中,方差的变化也显得更加明显(Figure 7h)。因此,他们重申了差异分析过程中生物学重复的意义,强调如果单细胞数据分析方法弱化或者抹除了生物学重复间的异质性,那么得到的结果将损失一些准确性。wm视讯Figure 6. DE analysis of single-cell data must account for biological replicates.
)。他们的结果表明,在细胞数较少的时候,GLMMs的表现非常好,但是在细胞数超过500的时候就没有明显优势了,也不如pseudo-bulk的方法(Figure 10)。而且,GLMMs通常需要耗费极大的资源量与特别长的时间来完成对单细胞数据的差异分析。不过这里遗憾的是,他们没有专门对GLMMs的结果做相关的验证,也没有看到GLMMs在ERCC spikein数据中的表现,看上去像是被reviewer(s)问了才做了这么一个补充。Figure 10. Single-cell DE analysis with generalized linear mixed models.