机器学习成功之道
1. 信任缺失问题及解决办法
在机器学习项目中,信任缺失是一个常见的问题,主要表现为以下几点:
- 利益相关者拒绝依据数据行动,而依赖直觉。
- 倾向于采用“老方法”做事。
- 对系统地处理预测结果缺乏兴趣。
- 利益相关者会挑选他们同意或不同意的结果。
- 反复要求对预测结果进行解释。
针对这些问题,可以采取以下解决措施:
- 确定能够帮助推动项目的“拥护者”。
- 让利益相关者参与建模过程(特别是数据准备阶段),并根据他们的反馈进行迭代。
- 精心准备“电梯游说”和“路演”幻灯片,提前解答常见问题。
- 记录模型产生影响的案例,并反复讲述这些故事。
- 以可操作的形式输出预测结果,例如采用“红绿灯”方法。
- 使用模型可解释性工具。
2. 避免明显的预测
在进行预测时,很容易意外构建一个“作弊”的模型,即通过简化问题或“短路”问题来得出结果,而没有深入理解问题。这在跟踪特征和结果随时间变化的项目中尤为常见,比如预测未来事件。这类项目通常从时间序列数据开始,为避免使用未来值预测过去值,需要对具有时间维度的数据进行仔细编码,这涉及到数据泄露问题,特别是目标泄露。
目标泄露有以下几种情况:
| 类型 | 描述 | 示例 |
| ---- | ---- | ---- |
| 明显的目标泄露 | 学习算法在现实部署环境中不应该知道某些关于目标的信息,但却知道了。 | 使用当前信用评分预测过去的贷款违约情况。 |
| 微妙的目标泄露 | 目标变量的定义方式导致产生同义反复或定义性的预测。 |
超级会员免费看
订阅专栏 解锁全文

2505

被折叠的 条评论
为什么被折叠?



