构建可用于生产的入侵检测系统:模型验证与超参数调优
在构建可用于生产的入侵检测系统时,模型验证和超参数调优是至关重要的环节。本文将详细介绍模型验证的方法和指标,以及超参数调优的常用技术。
1. 模型验证
模型验证的目标是评估训练好的模型对假设估计或预测的数值结果是否能合理描述独立数据集。因为在训练集上的任何度量都会有偏差且偏乐观,所以需要使用验证集。
1.1 数据集划分
- 划分原则 :不能纯粹随机划分训练集和验证集,验证集应代表未来使用模型进行评分的场景,且不能被与训练集高度相关的信息污染(数据泄露)。
- 基于时间的划分 :如果数据是按时间顺序排列的,应选择验证集总是在训练集之后。例如,如果部署计划是每天重新训练一次并对接下来24小时的所有观测值进行评分,那么验证集应该正好是24小时。但仅使用24小时的观测值进行验证过于局限,需要选择多个时间分割点,对每个分割点,训练模型到该点并在后续的验证窗口内验证。分割点的数量取决于可用资源,理想情况下应与模型训练的频率一致。
1.2 划分时的操作考虑
- 时间设定 :无论数据是否有时间戳,应根据当时可用的信息来设置时间。例如,如果数据生成和转换为训练特征空间之间有6小时的延迟,应考虑后者的时间来过滤给定分割点之前或之后的数据。
- 训练时间 :考虑模型重新训练所需的时间。例如,如果模型需要1小时重新训练,应在之前模型到期前1小时安排训练,训练期间的
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



