天文知识的数据挖掘与发现
1. 引言
空间数据本质上与事务数据不同。空间数据库中的对象由空间(位置)和几个非空间(非位置)属性来区分。例如,一个包含星系数据的天文数据库可能包含每个星系的 x、y 和 z 坐标(空间特征)、它们的类型和其他属性。
空间数据集通常描述地理空间或天文空间(与天文学相关)的数据。在本文中,我们使用一个包含不同类型星系位置的大型天文数据集。这种性质的数据集为使用数据挖掘技术生成有趣的模式提供了机会和挑战。其中一种模式是共定位模式。共定位模式是一组对象(如星系),其中每个对象都位于该组中另一个对象的邻域(在给定距离内)。
团是一种特殊类型的共定位模式。它被描述为一组对象,使得该组中的所有对象都相互共定位。换句话说,给定一个预定义的距离,如果一组对象与该组中的其他每个对象都在这个距离内,它们就形成一个团。图 1 展示了八个不同的对象 {A1; A2; A3; B1; B2; B3; B4; C1}。集合 {B1; B2; A3} 是一个团。然而,{B1; B2; A3; C1} 不是,因为 C1 与 B2 和 A3 不共定位,因此 {B1; B2; A3; C1} 只是一个共定位模式。
在本文中,我们考虑最大团。最大团是一个团,它不会作为同一共定位模式中另一个团的子集出现(因此在整个数据集中,因为每个对象都是唯一的)。例如,在图 1 中,{A1; A2; B4} 形成一个最大团,因为它不是任何其他团的子集。然而,{A3; B2; B3} 不是一个最大团,因为它是团 {A3; B1; B2; B3} 的子集(而 {A3; B1; B2; B3} 又是一个最大团)。表 1 的第二列显示了图 1 中的所有最大团。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



