XNN图:一种新型邻域图结构的探索
1. 引言
邻域图在数据挖掘、机器学习和计算机视觉等领域被广泛用于数据建模。以下是一些常见的应用场景:
- KNN分类器
- 流形学习
- 3D对象匹配
- 聚类
- 异常值检测
- 旅行商问题
- 网络挖掘中的单词相似度
在邻域图中,有两种流行的定义:ɛ - 邻域和k - 最近邻(KNN)图。在ɛ - 邻域中,如果两个点之间的距离在ɛ范围内,则它们互为邻居;而KNN图中,一个点的邻域定义为数据空间中与它最近的k个其他数据点。对应的图中,所有相邻点都相互连接,其中ɛ - 邻域图是无向图,KNN图是有向图。
然而,KNN和ɛ - 邻域图都存在一些问题。首先,参数ɛ和k的选择是个难题。邻域越大,越能捕捉局部结构,但图会变得更复杂,处理时间也会增加。当k等于数据大小(k = N)时,会得到一个完全图。而且,固定的k值可能会在稀疏区域产生不必要的长边,无法捕捉局部结构的关键信息。其次,这两种定义都不能保证图的连通性,可能会导致聚类结果错误。在高维数据中,为了解决连通性问题,通常需要将k设置得很大,这会使计算负担过重。
鉴于KNN的这些缺点,本文引入了一种新的邻域图——XNN。其核心思想是像KNN一样建模局部结构,但邻域大小是可变的,取决于数据的局部情况。在密集区域会有更多的边,而在稀疏区域边较少,这样既能捕捉局部结构,又能保证图的连通性。
2. 常见邻域图结构
2.1 最小生成树(MST)
MST能保证图的连通性,它通过最小化所有边的距离之和来构建。但它可能会形成复杂的链,无法准确捕捉数据的真实结
超级会员免费看
订阅专栏 解锁全文
50

被折叠的 条评论
为什么被折叠?



