生产环境中用于预测性维护的机器学习技术解析
1. 分类机器风险边界与H散度
在机器学习的分类任务中,未标记目标域的分类机器风险存在一定的上限边界。设训练数据为 (S \in uL),则目标域 (D_T) 上的分类机器风险 (R_{D_T}(h)) 满足以下不等式:
[R_{D_T}(h) \leq R_{D_S}(h) + g(d, n, \delta) + d_H^{T S} + C]
其中,(R_{D_S}(h)) 是训练数据集上的风险,(g) 是一个连续函数,它依赖于假设类 (H) 的VC维 (d)、训练数据集中的样本数量 (n) 以及选择 (S) 或 (T) 的概率 (1 - \delta)。(d_H^{T S}) 是经验H散度,(C) 是衡量假设类在训练和测试数据集上实现低风险能力的参数。
从这个公式可以看出,学习机器的泛化边界是训练误差(即经验风险 (R_{D_S}(h)))和经验H散度 (d_H^{T S}) 之间的权衡。我们可以通过找到输入数据集的合适表示(例如输入序列 (X) 的参数随机编码 (R))来控制H散度,使得任何VC维的二元分类器都无法区分源域和目标域生成的表示。
在某些研究中,通过对抗学习方法,将近似经验H散度添加到深度分类机器的正则化项中,以处理两个域的数据。
2. 数据信息内容的量化
在许多工业过程中,数据质量对于机器学习方法的成功与否起着关键作用。为了量化大型复杂数据集的信息内容,引入了数据价值度量(Data Value Metric,DVM)。DVM的定义如下:
[DVM(R) = F(R) - P(h)]
其中,(F(R)) 是所谓的保真度,它衡量原始数据集
超级会员免费看
订阅专栏 解锁全文
1934

被折叠的 条评论
为什么被折叠?



