18、机器学习模型评估与伦理考量

机器学习模型评估与伦理考量

一、机器学习模型评估

1.1 指标分布检查

在许多多元测试中,常使用 t 检验来分析均值之间的统计差异。t 值用于评估样本数据中差异的大小相对于变异的程度。然而,t 检验有一些假设条件,并非所有指标都能满足。例如,t 检验假设两组数据都呈正态(高斯)分布。

若数据分布并非高斯分布,可选择非参数检验,这类检验不依赖于高斯分布假设,如 Wilcoxon–Mann–Whitney 检验。

1.2 确定合适的 p 值

从统计学角度看,p 值是假设检验中的一个计算值,代表证据的强度。它衡量的是在两个总体无实际差异的情况下,差异偶然出现的统计显著性或概率。简单来说,就是在原假设为真的情况下,得到当前数据的可能性。p 值能为原假设提供反证,是利益相关者得出结论的有用指标。

p 值介于 0 到 1 之间,其解读如下:
| p 值范围 | 含义 |
| ---- | ---- |
| ≤ 0.05 | 强烈反对原假设,拒绝原假设 |
| > 0.05 | 反对原假设的证据较弱,维持原假设 |
| 接近 0.05 | 处于边缘情况,结果不确定 |

p 值越小,结果因偶然因素产生的概率就越小。一些医疗研究人员建议,在涉及计算机算法的研究中,应采用小于 0.01 的 p 值,以证明有充分证据反对原假设。

1.3 所需观察数量

项目所需的观察数量由项目要求的统计功效决定。理想情况下,应在项目开始时就确定好。

1.4 多元测试的运行时长

多元测试的理想

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值