机器学习在生产环境预测性维护及医疗欺诈检测中的应用
1. 生产环境预测性维护中的机器学习表示保真度
在生产环境预测性维护相关的机器学习研究中,$R_s$ 是堆叠自动编码器(SAE)中第 $s$ 个自动编码器生成的双域(多域数据情况也类似)数据表示。为了定义表示的一般保真度,我们将域信息融入公式。从域适应理论可知,若具有预定义复杂度的分类器无法区分来自不同域的数据,则该表示更优。
1.1 域识别问题的表示保真度
我们定义域识别问题的表示保真度为:
$F^d(R_s) = \frac{(1 + \gamma )I(R_s; Y^d) - \gamma I(R_s; R_{s - 1})}{I(R_{s - 1}; Y^d)}$
其中,$Y^d$ 是描述域隶属关系的二进制参数。我们期望的表示保真度是在区分不同类别时具有高能量,而在区分来自不同域的数据时具有低能量,这可通过最大化以下差值问题得到:
$F^O(R_s) = \max_{R_s} {F(R_s) - F^d(R_s)}$
1.2 问题等价性分析
问题 $F^O(R_s)$ 与边界条件在结构目标上是等价的。在相关边界条件中,通过最小化分类器的经验风险来最小化 $R_{DT}(h)$,利用 Fano 不等式可知,这等价于最大化互信息 $I(R_s; Y)$,进而得到公式中的保真度 $F(R_s)$。同时,两个域之间的低 H - 散度 $d_{H}^{ij}$ 也会降低经验风险的上界,低 H - 散度意味着二元分类器性能较低,从而根据 Fano 不等式可知 $F^d(R_s)$ 也较低。
1.3 公式对比分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



