重叠聚类与垃圾邮件过滤的三分类决策方法
1. 重叠聚类的三分类决策方法
在许多实际应用场景中,如网络结构分析、无线传感器网络和生物信息领域,一个对象往往会同时属于多个聚类,这就导致聚类边界必然会出现重叠的情况。为了解决这类重叠聚类问题,提出了一种基于决策理论粗糙集模型的三分类决策策略。
在一些数据集中,不同决策属性下的对象数量分布有所不同。例如,在某些数据里,有部分对象属于决策属性‘5’,36 个对象属于决策属性‘6’,6 个对象属于‘7’,5 个对象属于‘8’,4 个对象属于‘9’。而 Poker2 数据集包含来自 Poker - hand - training - true 的 1188 个对象,其中 403 个对象属于决策属性‘0’,568 个对象属于‘1’,165 个对象属于‘3’,36 个对象属于‘6’,6 个对象属于‘7’,5 个对象属于‘8’,4 个对象属于‘9’。
聚类结果会随着参数(如 α、β、Rth 和 mth)的变化而改变。通过实验发现,当 Rth 的值接近平均距离时,聚类结果会更好,但该算法的准确性仍有待提高。
这种三分类决策策略中,每个聚类由一个区间集来描述,该区间集由一对称为下界和上界的集合定义。此外,还提出了一种基于密度的聚类算法,并使用新策略进行了测试,实例分析表明该策略对重叠聚类是有效的。
2. 垃圾邮件过滤的三分类决策解决方案
传统上,垃圾邮件过滤常被视为一个二分类问题,许多机器学习算法被应用于不同的过滤器中,将传入的电子邮件分类为合法邮件或垃圾邮件,如朴素贝叶斯分类器、基于内存的分类器(k - nn)、基于 SVM 的分类器等。但实际上,垃圾邮件过滤是一个成本敏感的学习问题,将合