wm视讯如今在生物学研究中,差异分析越来越普遍,也有许多做差异分析的方法可供选择。但是在实际应用中,大多数人不知道该使用哪种方法来处理自己的数据,所以今天我就来介绍下目前几种常用的差异分析方法及其适用场景。
t检验(student t检验)是应用t分布的特征,将t作为检验的统计量来进行统计推断方法。它对样本要求较小(例如n<30)。
从某小学六年级抽取10名学生,其身高(单位:cm),是否认为该学校六年级平均身高130cm?
(虚构)有两组学生(每组10人),wm视讯一组采用传统教育,一组采用素质教育。一学期后,两组学生语文成绩(满分100)如下。问两组学生成绩之间差别是否显著。
独立样本t检验与配对样本t检验同属于双样本t检验,不同点在于配对样本t检验要求两个样本之间存在某些配对关系。
有20名女性分为10对,试吃两种药。经过一段时间后,药效如下。问两种药是否有区别
方差分析(analysis of variance ,ANOVA)就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
我们使用的是R里内置的“npk”数据集,该数据集由24行和5列数据组成,第一列代表区组(共6个),N、P和K分别代表氮、磷和钾元素的使用情况,yield代表豌豆产量,该数据集主要是用来研究不同肥料对豌豆产量的影响。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.
2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验.
秩和检验是对原假设的非参数检验,在不需要假设两个样本空间都为正态分布的情况下,测试它们的分布是否完全相同。
1.limma包做差异分析要求数据满足正态分布或近似正态分布,如基因芯片、TPM格式的高通量测序数据。 2.通常认为Count数据不符合正态分布而服从泊松分布。对于count数据来说,wm视讯用limma包做差异分析,误差较大 3.DESeq2、和 EdgeR都是基于count,然后两个都是NB(negative binomial)但是在估计dispersion parameter的方法上面不一样。 4.limma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。wm视讯 5.edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异,结果差异)。DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异,结果不差异)。 6.需要注意的是制作分组信息的因子向量是,因子水平的前后顺序,在R的很多模型中,默认将因子向量的第一个水平看作对照组
如果数据量大并且要求比较conservative的话可以所有方法都用下,然后取并集。wm视讯
edgeR默认使用 trimmed mean of M-values (TMM) 计算文库的scale factor进行normalization,以最大程度地缩小样本间基因表达量的log-fold change。这是因为TMM 法认为样本间大部分的基因都没有发生差异表达,而那些真正差异表达的基因并不会受到normalization的严重影响。如此一来,便将那些由于测序引起的差异表达基因的表达量给校正了,消除了一部分的假阳性。
前言 众所周知,当你所自己今年比去年更优秀的时候是不可以随便吹牛的,请把你在简书上发文的频率以及质量摆出来! 面对...
导读: 计算两组数据均值,检查分布正态性和方差齐性选择检验的方法。 1 读取,计算均值,箱图观察 2 查看数据分布...
今天更新TCGA数据库的利用系列第三篇文章,在对TCGA数据进行挖掘时,wm视讯通常会筛选出来一些表达量显著异常的基因,作...