低秩离群点检测方法:原理、优化与实验
1. 引言
在离群点检测领域,我们提出了一种低秩学习模型,这是首个旨在解决离群点检测问题的低秩模型。低秩约束能够以动态方式对多个超球体进行建模,极大地有利于离群点检测任务。
2. 方法概述
我们提出了基于低秩约束的离群点检测方法,该方法能自动学习超球体的中心和相应半径。下面将详细介绍问题的表述以及优化算法,包括原始解和对偶解。
3. 问题表述
设 (X) 表示 (D) 维样本空间中的一组观测值,即 (X = [x_1, x_2, \ldots, x_N] \in R^{D×N}),其中 (N) 为观测值的数量。(C = [c_1, c_2, \ldots, c_M] \in R^{D×M}) 是聚类的中心矩阵,(M) 为聚类的数量。(R = [r_1, r_2, \ldots, r_M] \in R^M) 表示相应聚类的超球体半径,即 (r_i) 表示 (c_i) 的半径。为了将每个观测值与其中心和中心的半径关联起来,我们使用指示矩阵 (U = [u_1, u_2, \ldots, u_N] \in R^{M×N}) 来确定每个样本 (x_i) 所属的聚类。
与支持向量数据描述(SVDD)方法相比,SVDD 总是试图为所有训练数据找到全局解,最终的解需要覆盖大多数正数据,这会增大超球体的半径,从而错误地将许多离群点包含在超球体内。而我们的方法可以将问题拆分为两个独立的问题,并逐步找到最优的超球体。
我们的策略是使用更少且半径最小的超球将大部分数据包含在内。这些超球体应一次性包含大部分训练数据。然而,过大的半径会在测试阶段包含不期望的误报样本(离群点),因此
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



