机器学习模型评估与伦理考量
一、机器学习模型评估
1.1 指标分布检查
在许多多元测试中,常使用 t 检验来分析均值之间的统计差异。t 值用于评估样本数据中差异的大小相对于变异的程度。然而,t 检验有一些假设条件,并非所有指标都能满足。例如,t 检验假设两组数据都呈正态(高斯)分布。
若数据分布并非高斯分布,可选择非参数检验,这类检验不依赖于高斯分布假设,如 Wilcoxon–Mann–Whitney 检验。
1.2 确定合适的 p 值
从统计学角度看,p 值是假设检验中的一个计算值,代表证据的强度。它衡量的是在两个总体无实际差异的情况下,差异偶然出现的统计显著性或概率。简单来说,就是在原假设为真的情况下,得到当前数据的可能性。p 值能为原假设提供反证,是利益相关者得出结论的有用指标。
p 值介于 0 到 1 之间,其解读如下:
| p 值范围 | 含义 |
| ---- | ---- |
| ≤ 0.05 | 强烈反对原假设,拒绝原假设 |
| > 0.05 | 反对原假设的证据较弱,维持原假设 |
| 接近 0.05 | 处于边缘情况,结果不确定 |
p 值越小,结果因偶然因素产生的概率就越小。一些医疗研究人员建议,在涉及计算机算法的研究中,应采用小于 0.01 的 p 值,以证明有充分证据反对原假设。
1.3 所需观察数量
项目所需的观察数量由项目要求的统计功效决定。理想情况下,应在项目开始时就确定好。
1.4 多元测试的运行时长
多元测试的理想
超级会员免费看
订阅专栏 解锁全文
817

被折叠的 条评论
为什么被折叠?



