模型监控调研总结

最新推荐文章于 2025-11-26 15:49:07 发布

原创

最新推荐文章于 2025-11-26 15:49:07 发布 · 998 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文是关于模型监控的调研总结，涵盖了数据监控、模型性能监控和模型可解释性的关键指标。在数据监控中，重点讨论了漂移检测方法，如Hellinger距离、KL散度、JS散度、KS统计量、Wasserstein距离和Cramer's V统计量等。此外，还介绍了特征相关性检测和数据质量监控。在模型性能监控方面，提到了各种分类和回归模型的评价指标。模型可解释性方面则涉及特征重要性、局部和全局解释方法。最后，对Whylabs、Evidently和Deepchecks等监控框架的特性进行了对比分析。

引言

背景：本文为个人调研主流监控框架后总结各个监控框架公有内容，横向对比，筛选项目可用功能等方面的总结手稿，仅供参考。
该系列前面文章见：
1
2
3
4

模型监控指标梳理

1.数据监控方法(主要是表格数据)：

1.数据质量监控指标：{空值，None 值，缺失值(NaN)}，重复值，唯一值，异常值(离群点)。
- a.数据的统计指标：极值，均值，中位数，众数，方差，标准差等。
2.数据格式监控指标：字符串不匹配，字符串长度超过范围，混合类型，特殊值(如颜文字)。
3.漂移监控指标：
-a.标签(目标)漂移：训练数据标签和测试数据标签的标签分布发生变化(通俗讲就是训练数据标签和实际数据标签不一致)。
- b.预测漂移：通俗讲就是模型随着时间和环境变化导致预测结果发生的变化。
- c.数据漂移：训练数据与测试数据的特征分布发生变化(通俗讲就是训练数据和实际数据存在差异)。
4.其他监控指标：特征相关性检测(训练特征之间，训练特征与目标特征之间)。
5.CV 图像数据监控指标：图像亮度(均值，标准差)，色调(均值，标准差)，饱和度(均值，标准差)，高度宽度(均值，标准差)等
6.NLP 文本数据监控指标：字符串长度，字数，字符数等

1.1.漂移检测方法：

1.Hellinger 距离：衡量两个概率分布之间相似性的度量方法(对称)。
- a.适用场景：常用于比较连续或离散特征的概率分布相似性。它对于分布形状和尾部的差异比较敏感，因此适用于对分布的整体差异性进行度量。Hellinger距离在统计分析、机器学习和数据挖掘等领域中被广泛应用，例如领域适应、聚类分析和异常检测等。
2.Kullback-Leibler(KL)散度：衡量两个概率分布之间的差异程度，是使用一个概率分布来表示真是分布时候的信息损失。
- a.KL散度常用于衡量两个概率分布之间的差异和信息增益(非对称)。它对于非零概率区域的差异比较敏感，可以用于比较连续或离散特征的分布差异。
3.Jensen-Shannon(JS)散度：KL散度的一种对称形式，衡量的是两个概率分布之间的相似度和差异度。(可用于数值特征)
- a.适用场景：常用于比较连续或离散特征的概率分布相似性。它通过计算两个分布分别与它们的均值分布的KL散度的平均值来衡量它们之间的差异。Jensen-Shannon散度在文本分类、聚类分析和信息检索等领域中被广泛使用，尤其在需要衡量多个分布之间的相似性时较为常见。
4.Kolmogorov-Smirnov(KS)统计量：用于比较两个样本或者样本分布与理论分布之间差异的统计量，基于累计分布函数的差异来衡量两个分布之间的最大绝对差异。
- a.适用场景：适用于连续或者离散数据，可以用来判断两个样本是否来自同一分布或者样本分布与理论分布是否拟合良好。
- b.Evidently推荐：对于数据量<= 1000，数值特征(n_unique > 5)的情况使用双样本 KS 检验；
- c.如果数值特征(n_unique <= 5)的分类特征或者数值特征使用卡方检验
- d.对于二分类特征：基于 Z-score 对独立样本进行比例差异测试
- e.注：置信度使用默认的 95%
5.Wasserstein 度量(EMD)：通过计算将一个分布转换成另一个分布所需要的最小运输成本，来衡量两个概率分布之间的差异。
- a.适用场景：对于连续分布和离散分布都适用，并且可以处理具有不同形状的分布。它在