一、简介
题目: X-means: Extending K-means with Efficient Estimation of the Number of Clusters
会议: ICML 2000
任务: 估计无标签数据的类别数量并聚类。
Idea: 给定预估的类别数上下界,从下界开始做一次 k k k-means,再对每个簇进行 k k k-means( k = 2 k=2 k=2),之后通过贝叶斯信息准则(Bayesian Information Criterion, BIC)判断 k k k应该等于2还是1,如此往复直至 k k k不再增加或到达上界。
二、详情

如图,X-means通过将现有簇一分为二并对比前后BIC分数来确定当前簇是否应该被分割。
1. 算法步骤
输入:无标签数据 D D D,预估类别数上下界限 K max K_{\max} Kmax和 K min K_{\min} Kmin。
输出:预测的类别数量和聚类结果。
(1)初始化 k n e w = K min k_{new}=K_{\min} k

X-means算法是K-means的一种扩展,主要用于自动估计无标签数据的类别数量。它通过在现有簇上应用K-means并比较分割前后的BIC(贝叶斯信息准则)分数来决定是否继续分割。算法从预设的最小类别数开始,不断尝试分割簇,直到BIC分数不再增加或达到预设的最大类别数。BIC用于平衡模型复杂度和拟合优度,帮助确定最佳的簇数量。
最低0.47元/天 解锁文章
438

被折叠的 条评论
为什么被折叠?



