子空间聚类层次结构的检测与可视化
1. 相关工作
在子空间聚类领域,存在多种不同的算法,它们的目标和特点各有不同。
1.1 生成重叠聚类的算法
部分子空间聚类算法旨在找出特征空间所有子空间中的所有聚类,会生成重叠聚类,即一个点可能属于不同子空间中的不同聚类。一般来说,这些方法也会产生某种子空间层次结构,但这种层次结构与本文所讨论的不同。因为这些算法允许点被放置在聚类中,使得这些聚类的子空间之间没有关系,所以得到的“层次结构”更加复杂,通常难以解释。
1.2 寻找非重叠子空间聚类的算法
另一些子空间聚类算法则专注于寻找非重叠的子空间聚类。这些方法将每个点分配到一个唯一的子空间聚类或噪声中,通常不会产生关于检测到的子空间之间层次关系的任何信息。
1.3 HiSC 算法及其局限性
目前,唯一能找到子空间聚类层次结构特殊情况的方法是 HiSC。然而,HiSC 存在严重的局限性:
1. 不切实际的假设 :HiSC 通常假设如果一个点 p 属于一个投影聚类 C,那么 C 必须在整个特征空间中 p 的局部邻域内可见。但在实际情况中,这一假设往往不成立。如果 p 属于一个投影聚类,而在整个特征空间中 p 的局部邻域没有显示出这个投影,HiSC 就不会将 p 分配到其正确的聚类中。
2. 层次结构的限制 :HiSC 检测到的层次结构仅限于单包含关系,只能用树(如树状图)来可视化。但子空间聚类的层次结构可能会有多重包含关系,要可视化这种更复杂的关系,需要图表示而不是树表示。
3. 聚类形
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



