云服务中的MLOps与AWS应用实践
1. 数据完整性与漂移监测
在数据处理过程中,数据完整性至关重要。例如,建议的基线要求数据完整性达到100%,但实际模型可能接近99.7%,由于约束条件是100%,就会产生并报告违规情况。并且可能存在像“Churn”特征的数据类型不符合预期的情况,预期数据类型为整数,但实际只有0.0%的数据是整数,这是一个关键问题。
在监测数据漂移方面,Azure ML和AWS都有各自的解决方案。Azure ML可以分析数据漂移并设置警报,在模型投入生产前捕获潜在问题。数据漂移可能由多种原因引起,如值类型的变化(例如从华氏度到摄氏度)、空值或空值,以及季节性变化等自然漂移。
1.1 Azure ML数据漂移监测设置
要在Azure中设置数据漂移工作流,需要按照以下步骤进行:
1. 创建目标数据集 :目标数据集需要设置时间序列,可以使用时间戳列或虚拟列。虚拟列可以从数据集存储路径推断时间戳,这个配置属性称为分区格式。例如,路径“/2021/10/14/dataset.csv”会使数据集有一个2021年10月14日的虚拟列。
2. 创建数据集监视器 :需要目标数据集(时间序列数据集)、基线数据集和监视器设置。基线数据集应与目标数据集具有相同或尽可能相似的特征,还可以选择时间范围来切片数据集。监视器配置可以创建运行计划,并设置数据漂移百分比的容忍阈值。
3. 查看漂移结果 :漂移结果将在Azure ML Studio的“Assets”部分的“Dataset Monitors”选项卡中显示,其中包含漂
超级会员免费看
订阅专栏 解锁全文
1166

被折叠的 条评论
为什么被折叠?



