ZKX's LAB

fdr 假阳性率错误控制法 筛选差异基因的方法比较

2020-08-12知识21

筛选差异基因的方法比较 Bonferroni校正法、Sidak 校正法和Hochberg 法可将FWER、FDR控制在很低的水平,但是筛选出的差异表达基因数比较少,不适用基因表达谱筛选差异表达基因的数据分析。相同样本量和方差条件下,成组t检验方法筛选的差异表达基因数最多,但是不能有效地控制FW ER、FDR 水平,筛选出的差异表达基因假阳性数过多。通过模拟实验发现,SAM 方法和BH 法筛选差异表达基因数、假阳性数、FWER 和FDR 均相差不大,均筛选出较多的差异表达基因,且控制了多重检验错误率。相同样本量和方差条件下,SAM 方法筛选出的差异表达基因数、约登指数略高于BH法,假阳性数略低于BH法。因此,SAM 方法适用于基因表达谱数据筛选差异表达基因的数据分析。向左转|向右转筛选差异基因的方法 SAM方法由Tusher、Tibshirani、Chu于2001 年率先提出,是一类用于微阵列基因表达谱数据筛选差异表达基因的统计分析方法。SAM方法适用于不同设计和资料类型的微阵列数据差异表达基因的筛选。SAM方法一般采用permutation 算法估计假发现率(false discoveryrate,FDR),达到控制多重检验错误率的目的。Storey(2001)针对基因表达谱数据统计分析中的多重检验问题,提出了一种新的第Ⅰ类错误测度阳性假发现率(positive falsediscovery rate,pFDR),并就该测度的合理性进行了论证。Storey(2002)改进了控制重检验错误率的方法,提出了一种直接方法,即先凭借经验固定拒绝域,然后估计pFDR,若某基因的pFDR小于检验水准,则认为该基因为差异表达基因。多重检验为控制总Ⅰ类错误率(family-wise error rate,FWER)或FDR,可通过多种方法计算校正的P值;pFDR也有类似定义,Storey将其定义为q值。对于一个检验统计量T=t的q值定义为:q-value(t)=inf{Γα:t∈Γα}pFDR(Γα)其中,Γα为拒绝域。由上式看出:q值为该假设刚好被拒绝所犯的最小第Ⅰ类错误。假定对m 个相同假设H1,H2,…,Hm 进行检验,T1,T2,T3,…,Tm 为检验统计量,且Ti 是独立同分布,拒绝域为Γ,那么检验统计量T=t的q值可表示为:q-。

随机阅读

qrcode
访问手机版