可扩展且接近最优的 ε 管聚类回归
1 聚类回归方法概述
在聚类回归(CLR)领域,存在多种方法。近似方法包括 Sp¨ath 的相关算法、模拟退火算法、基于数学规划的启发式方法,以及类似 k - 均值算法的 k - 平面聚类中的期望最大化方法。而精确方法则涉及混合整数优化、重复分支定界法和列生成方法。不过,这些算法在处理低维数据时,通常只能处理几百个观测值,且聚类数一般少于 5 个。
此外,针对 CLR 的 L2 回归损失,也有许多替代方案,如更稳健的 L1 损失。近期,支持向量回归(SVR)也被用于 CLR 问题,但与本文方法的关键区别在于,本文直接最小化 ε 管,而其他方法是在每个聚类中求解纯 SVR(通过最小化松弛变量),且 ε 是一个超参数,同时它们不提供最优性保证。
2 基于 ε 管目标的最优 CLR
2.1 将 ε 管 CLR 转化为混合整数线性规划(MILP)
ε 管 CLR 的目标是最小化所有聚类中每个点的最大回归残差。假设有 n 个观测值 $(x_i, y_i)$,数据集 $(X, y) \in R^{n×(d + 1)}$,其中 $i \in N = {1, …, n}$。CLR 的主要目标是为 k 个聚类 $(C_j)$ 分别找到一个回归平面,第 j 个聚类的回归系数由权重 $w_j \in R^d$ 和偏置 $b_j \in R$ 表示,$j \in K = {1, …, k}$。
引入二进制变量 $c_{ij}$ 表示点 i 是否分配到聚类 $C_j$($c_{ij} = 1$ 表示分配,$c_{ij} = 0$ 表示未分配),从而可以将 ε 管 CLR 目标定义为:
$$ <
超级会员免费看
订阅专栏 解锁全文
1225

被折叠的 条评论
为什么被折叠?



