数据科学中的多元分析方法与应用
在数据科学领域,我们常常会面临多种复杂的分析任务,比如控制特征选择的假阳性率、分析大纵向数据等。下面将详细介绍一些重要的分析方法及其应用。
错误发现率(FDR)与Benjamini - Hochberg(BH)程序
FDR为测试或分类器性能提供了一种衡量方式,其计算公式为:
[
FDR = E\left(\frac{#FalsePositives}{total\ number\ of\ selected\ features}\right)
]
Benjamini - Hochberg(BH)FDR程序包括对p值进行排序、指定目标FDR、计算并应用阈值。以下是在R中实现该程序的具体步骤:
# p值从小到大输入
pvals <- c(0.9, 0.35, 0.01, 0.013, 0.014, 0.19, 0.35, 0.5, 0.63, 0.67, 0.75, 0.81, 0.01, 0.051)
length(pvals)
# 输入目标FDR
alpha.star <- 0.05
# 将p值从小到大排序
pvals <- sort(pvals); pvals
# 计算每个p值的阈值
threshold<-alpha.star*(1:length(pvals))/length(pvals)
# 将p值与其阈值进行比较并显示结果
cbind(pvals, threshold, pvals<=threshold)
从最小的p值开始向上查找,我们发现最大的k使得p值小于其阈值$\alpha^*$,这
超级会员免费看
订阅专栏 解锁全文
3723

被折叠的 条评论
为什么被折叠?



