36、生产环境中用于预测性维护的机器学习技术解析

生产环境中用于预测性维护的机器学习技术解析

1. 分类机器风险边界与H散度

在机器学习的分类任务中,未标记目标域的分类机器风险存在一定的上限边界。设训练数据为 (S \in uL),则目标域 (D_T) 上的分类机器风险 (R_{D_T}(h)) 满足以下不等式:
[R_{D_T}(h) \leq R_{D_S}(h) + g(d, n, \delta) + d_H^{T S} + C]
其中,(R_{D_S}(h)) 是训练数据集上的风险,(g) 是一个连续函数,它依赖于假设类 (H) 的VC维 (d)、训练数据集中的样本数量 (n) 以及选择 (S) 或 (T) 的概率 (1 - \delta)。(d_H^{T S}) 是经验H散度,(C) 是衡量假设类在训练和测试数据集上实现低风险能力的参数。

从这个公式可以看出,学习机器的泛化边界是训练误差(即经验风险 (R_{D_S}(h)))和经验H散度 (d_H^{T S}) 之间的权衡。我们可以通过找到输入数据集的合适表示(例如输入序列 (X) 的参数随机编码 (R))来控制H散度,使得任何VC维的二元分类器都无法区分源域和目标域生成的表示。

在某些研究中,通过对抗学习方法,将近似经验H散度添加到深度分类机器的正则化项中,以处理两个域的数据。

2. 数据信息内容的量化

在许多工业过程中,数据质量对于机器学习方法的成功与否起着关键作用。为了量化大型复杂数据集的信息内容,引入了数据价值度量(Data Value Metric,DVM)。DVM的定义如下:
[DVM(R) = F(R) - P(h)]
其中,(F(R)) 是所谓的保真度,它衡量原始数据集

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值