混合数据中频繁相似模式挖掘
1. 引言
频繁模式挖掘是一项重要任务,它也是关联规则挖掘的基础步骤。频繁模式指的是研究对象的特征值组合,其在数据集中出现的频率不低于用户指定的阈值。这些模式在不同应用领域有不同的代表意义,如用户画像、操作模式、常见症状和风险因素等。
在软科学领域,如医学、地质学、社会学等,相似性概念常被用作决策工具。例如,在社会学研究中,若两人年龄差的绝对值最多为 5 岁,可认为他们年龄相似;对于教育特征,“是”的关系也可作为相似关系,且这种相似性可能是不对称的。
目前多数频繁模式挖掘算法假定两个对象子描述只有完全相等时才相似,但软科学中会使用其他相似性函数。若使用这些传统算法,可能会丢失一些频繁模式,导致信息遗漏,在实际问题中可能得出错误结论或无法发现有用知识。
2. 相关工作
早期频繁模式挖掘局限于二进制数据集合。而实际数据集合多为混合数据,即包含数值和非数值等不同类型的数据。后来有研究提出对数值特征进行精细划分和合并相邻区间的方法,但该方法未考虑相似性,可能丢失频繁模式。
之后处理混合数据频繁模式挖掘主要有两种方法:一是将数值特征离散化,把问题转化为二进制模式挖掘问题,但这种方法有时是人为的,未考虑语义和相似性,且有些数值特征无法离散化;二是使用模糊集理论处理数值和非数值特征,该方法在语言变量定义中考虑了特征值的相似性,但无法在特征组合间融入这种信息。
最后有算法(ObjectMiner)通过受限的相似性函数家族引入相似性,该家族满足特定条件。
3. 符号和问题定义
设 $\Omega = {O_1, O_2, …, O_n}$ 为数
超级会员免费看
订阅专栏 解锁全文
1100

被折叠的 条评论
为什么被折叠?



