数据挖掘通用框架探索
1. 模式与模型的双重性质
模式和模型本质上具有双重性质。一方面,它们是将数据点作为输入,并将其映射到概率、布尔值、类别预测或相关概率、聚类分配的函数;另一方面,它们可以被视为数据结构,从而进行表示、存储和操作。
1.1 示例说明
假设存在一个频繁项集,包含面包和黄油这两个项。从数据结构的角度看,它可以表示为集合 {面包, 黄油},并存储在数据库中,以此方式可以存储从一组交易中导出的频繁项集。从功能的角度看,这个项集代表了从交易到布尔值的映射。若交易中同时包含面包和黄油,即包含该模式,那么该项集就被赋值为真;反之则为假。例如,交易 {面包, 黄油, 牛奶} 包含了该项集,结果为真;而交易 {啤酒, 花生, 黄油} 不包含该项集,结果为假。
1.2 模式和模型的类别
在数据挖掘领域,存在多种不同类型的预测模型,如分类规则、决策树和线性模型等,这些被称为模型类别。对于模式,我们则讨论模式类别。
- 模式类别 :类型 T 上的模式类 CP 是类型 T 上的一组模式 P,用语言 LP 表示。
- 模型类别 :类型 Td 和 Tc 上的模型类 CM 是类型 Td 和 Tc 上的一组模型 M,用语言 LM 表示。
- 概率分布类和聚类类 :同样可以定义概率分布类 CD 和聚类类 CC。
这些语言(LP/LM/LD/LC)本质上定义了用于表示模式和模型的数据类型。例如,若数据类型 Td = (实数, 实数) 且 Te = 实数,线性模型将由三个实值系数表示,需要数