自改进机器学习模型的偏差预防与制度建设
1. 自改进机器学习模型安全运行的三要素
为了安全地运行自改进机器学习模型,建议考虑三个要素:模型机制、紧急制动和定期人工审查。
1.1 模型机制
模型机制主要涉及模型设计、数据工程和模型估计算法。
- 模型设计 :可以通过“封装”自改进机器学习来限制偏差风险。例如,为不同群体(如火星人和泽塔网状星系人)构建单独的模型,使自改进算法专注于同组内的更好排名,避免整体决策引擎对某一群体产生偏差;自改进机器学习算法也可以作为稳定的手工推导模型的特征,如简历筛选算法可以是一种手工逻辑回归,包含基于自改进机器学习的“技术知识”“目标达成”和“人员领导能力”等方面的离散分数。
- 数据工程 :应将相关最佳实践融入自改进算法的机制中,具体包括:
- 向算法输入新数据的脚本要正确应用所有必要的排除(如不重要的违约情况)和数据清理步骤(如处理异常值)。
- 考虑仅使用连续随机试验的数据来更新算法,避免使用反映先前算法版本选择的有偏差反馈。
- 决定用于模型更新的数据时间窗口时,根据特定事件或特征的发生频率调整窗口长度。例如,某些特征在七天窗口内可能有足够的数据点,而另一些处理分类变量的特征可能需要一年的数据,因为许多值很罕见,七天数据可能导致统计结果不确定,从而引发偏差。
- 正确识别未知值,定义“我不知道”类别,并可能将此类情况纳入异常处理程序,避免新类别被误解释。
- 在脚本中嵌入自动偏差检测程序,若数据中出现新偏差,脚本可发出警报并暂停自动更新。
- 模型估计算法
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



