87、分类与聚类算法的研究进展与实验分析

分类与聚类算法的研究进展与实验分析

在机器学习和数据挖掘领域,分类和聚类是两个重要的任务。分类旨在将数据样本分配到预定义的类别中,而聚类则是将数据样本划分为不同的组,使得同一组内的数据样本具有较高的相似性。本文将介绍两种不同的研究,一种是关于分类器融合中加权个体分类器的方法,另一种是基于蚁群优化的模糊C均值(FCM)聚类初始化方法。

分类器融合中的加权方法

在分类器融合中,使用局部类内准确率对个体分类器进行加权,同时采用距离度量学习来搜索类内最近邻。通过与多数投票和W - LA这两种密切相关的组合规则进行实验比较,验证了W - LWCA规则的有效性。

实验结果分析

实验使用了两种基分类器:k近邻和C4.5,对九个数据集进行分类实验,结果如下:
- k近邻基分类器
| 数据集 | 单一分类器 | 多数投票(M - Voting) | W - LA | W - LWCA |
| — | — | — | — | — |
| 1 | 64.00 | 72.00 | 70.93 | 71.20 |
| 2 | 67.02 | 68.72 | 69.57 | 68.72 |
| 3 | 91.00 | 94.40 | 94.60 | 94.60 |
| 4 | 80.00 | 87.33 | 88.00 | 95.33 |
| 5 | 95.40 | 94.11 | 94.36 | 93.99 |
| 6 | 97.84 | 97.65 | 97.72 | 98.02 |
| 7 | 60.83 | 64.24 | 63.78 | 64.42 |
| 8 | 68.16 | 67.98 | 70.04 | 69.96 |
| 9 | 63.93 | 68.49 | 68.40 | 69.50 |

从表中可以看出,W - LWCA在九个数据集中有五个数据集上取得了最高的准确率。

  • C4.5基分类器
    | 数据集 | 单一分类器 | 多数投票(M - Voting) | W - LA | W - LWCA |
    | — | — | — | — | — |
    | 1 | 71.33 | 74.67 | 73.47 | 72.67 |
    | 2 | 63.83 | 70.00 | 71.28 | 71.91 |
    | 3 | 100.00 | 96.40 | 95.80 | 96.40 |
    | 4 | 96.67 | 100.00 | 100.00 | 100.00 |
    | 5 | 89.26 | 89.69 | 91.10 | 91.17 |
    | 6 | 95.06 | 95.56 | 96.23 | 96.42 |
    | 7 | 57.60 | 65.81 | 65.62 | 66.08 |
    | 8 | 62.33 | 70.40 | 71.03 | 70.40 |
    | 9 | 64.38 | 67.58 | 68.22 | 68.13 |

同样,W - LWCA在九个数据集中也有五个数据集上取得了最高的准确率。

这些结果从统计学上表明了W - LWCA相对于多数投票和W - LA的优越性,同时也说明集成方法的性能优于单一分类器,验证了W - LWCA方法的有效性。

基于蚁群优化的FCM聚类初始化方法

聚类在数据挖掘、机器学习、模式识别等领域有广泛的应用,但聚类算法通常对初始化条件非常敏感,容易陷入局部最优。因此,提出了一种基于蚁群优化的启发式质心搜索方法来初始化FCM聚类算法。

相关工作
  • 蚁群系统(Ant System) :受蚂蚁觅食行为的启发,Marco Dorigo等人提出了第一个蚁群算法——蚁群系统。在解决旅行商问题(TSP)等离散优化问题中,蚂蚁选择路径的概率由以下公式定义:
    [p_{ij}(t)=\frac{[\eta_{ij}(t)]^{\alpha}[ph_{ij}(t)]^{\beta}}{\sum_{s\in S}[\eta_{is}(t)]^{\alpha}[ph_{is}(t)]^{\beta}}]
    其中,(\eta_{ij}(t)=\frac{1}{d_{ij}(t)}),(d_{ij}(t)=|x_i - x_j|),(ph_{ij}(t))表示路径((i, j))上的信息素浓度,(\alpha)和(\beta)是信息素浓度和启发式信息的权重。

当所有蚂蚁完成路径构建后,路径上的信息素浓度更新公式为:
[ph_{ij}’(t)=\rho ph_{ij}(t)+\Delta ph_{ij}]
其中,(\rho)表示信息素的蒸发率,(\Delta ph_{ij}=\sum_{k = 1}^{N}\Delta ph_{ij}^k),(\Delta ph_{ij}^k)是第(k)只蚂蚁在路径((i, j))上留下的信息素浓度。

  • 模糊C均值(FCM) :FCM是一种广泛使用的聚类算法,通过迭代优化目标函数来实现数据集的划分。目标函数(W_m)定义为:
    [W_m=\sum_{i = 1}^{N}\sum_{j = 1}^{M}\mu_{ji}^m d_{ji}^2]
    其中,(\mu_{ji})是第(i)个数据样本到第(j)个聚类中心的隶属度,(d_{ji}=|x_i - c_j|),(N)是数据样本的总数,(M)是聚类的数量,(m)是隶属度的指数权重。

隶属度和聚类中心的更新公式分别为:
[\mu_{ji}=\frac{1}{\sum_{k = 1}^{N}(\frac{d_{ji}}{d_{ki}})^{\frac{2}{m - 1}}}]
[c_j=\frac{\sum_{i = 1}^{N}\mu_{ji}^m x_i}{\sum_{i = 1}^{N}\mu_{ji}^m}]

提出的方法

该方法主要包括三个阶段:路径构建、评估和信息素更新。
1. 路径构建 :将每个数据样本视为一只蚂蚁,在每一轮迭代中,蚂蚁根据以下概率选择聚类中心:
[( )p_{ij}(t)=\frac{[\eta_{ij}(t)]^{\alpha}[ph_{ij}(t)]^{\beta}}{\sum_{k = 1}^{M}[\eta_{ik}(t)]^{\alpha}[ph_{ik}(t)]^{\beta}}]
其中,(\eta_{ij}(t)=\frac{1}{d_{ij}(t)}),(d_{ij}(t)=|x_i - c_j(t)|),(c_j(t))表示第(j)个聚类质心向量在时间(t)的值,(ph_{ij}(t))表示聚类(j)对第(i)只蚂蚁的信息素影响。

  1. 聚类中心更新 :所有蚂蚁完成聚类选择后,聚类中心更新公式为:
    [c_j(t + 1)=\frac{1}{|S_j|}\sum_{i\in S_j}x_i]
    其中,(S_j)是属于第(j)个聚类的数据样本集合,(|S_j|)是(S_j)的基数。

  2. 聚类合并 :当满足以下两个条件时,进行聚类合并:

    • 最小聚类的大小小于与平均聚类大小成比例的阈值大小。
    • 最小聚类与其最近聚类之间的距离小于阈值距离。

在本研究中,阈值大小(T_m=\frac{1}{4}S_{avg})((S_{avg})为平均聚类大小),阈值距离(T_d = 1.5\min_{i\neq j}|c_i - c_j|)。

  1. 评估 :使用FCM和Bezdek的划分系数评估聚类结果,评估函数定义为:
    [EVA=\frac{1}{N}\sum_{i = 1}^{N}\sum_{j = 1}^{M}\mu_{ji}^2]
    EVA值越大,聚类结果越好。

  2. 信息素更新 :每个质心的信息素浓度更新公式为:
    [ph_j(t + 1)=\rho ph_j(t)+\gamma EVA\Delta ph]
    其中,(\rho)是蒸发率,(\Delta ph)是一只蚂蚁留下的信息素,设为常数。

信息素影响根据每个聚类中心的信息素浓度更新:
[ph_{ij}(t + 1)=U_i\cdot v_j ph_j(t + 1)]
其中,(U_i)是隶属度向量,(v_j)是聚类(j)的隶属度向量质心。

实验结果

使用该方法对从RGB彩色图像中提取的10个不同数据集进行聚类实验,并与随机初始化的FCM(RFCM)进行比较。评估指标包括平均平方误差(ASE)、Bezdek的划分系数(VPC)、划分熵(VPE)和Xie - Beni函数(VXB)。

  • 数据集和聚类数量
    | 数据集 | 成员数量 | 最终聚类数量 |
    | — | — | — |
    | 蝴蝶 | 229000 | 5 |
    | 汽车 | 110080 | 11 |
    | 花朵 | 120000 | 8 |
    | 仓鼠 | 120000 | 15 |
    | 倒影 | 270000 | 12 |
    | 尼斯湖 | 174080 | 8 |
    | 山魈 | 262144 | 17 |
    | 歌剧 | 407270 | 5 |
    | 辣椒 | 262144 | 10 |
    | 天际线拱门 | 237600 | 13 |

  • 实验结果比较

    • ASE比较
      | 数据集 | 基于蚁群的聚类初始化FCM | RFCM |
      | — | — | — |
      | 蝴蝶 | 15.7136 | 14.2307 |
      | 汽车 | 14.3648 | 15.8087 |
      | 花朵 | 33.9102 | 28.4641 |
      | 仓鼠 | 20.2638 | 20.6871 |
      | 倒影 | 14.8794 | 15.5896 |
      | 尼斯湖 | 18.6379 | 17.1037 |
      | 山魈 | 24.9858 | 22.5325 |
      | 歌剧 | 20.5986 | 19.6579 |
      | 辣椒 | 23.8402 | 22.5076 |
      | 天际线拱门 | 18.9137 | 16.7132 |

    • VPC比较
      | 数据集 | 基于蚁群的聚类初始化FCM | RFCM |
      | — | — | — |
      | 蝴蝶 | 0.7343 | 0.6796 |
      | 汽车 | 0.6433 | 0.6220 |
      | 花朵 | 0.4648 | 0.5066 |
      | 仓鼠 | 0.5210 | 0.5199 |
      | 倒影 | 0.5611 | 0.5408 |
      | 尼斯湖 | 0.6860 | 0.6615 |
      | 山魈 | 0.3046 | 0.3309 |
      | 歌剧 | 0.6996 | 0.7111 |
      | 辣椒 | 0.4797 | 0.5213 |
      | 天际线拱门 | 0.6300 | 0.6607 |

    • VPE比较
      | 数据集 | 基于蚁群的聚类初始化FCM | RFCM |
      | — | — | — |
      | 蝴蝶 | 0.7504 | 0.8794 |
      | 汽车 | 1.1558 | 1.2312 |
      | 花朵 | 1.6544 | 1.5471 |
      | 仓鼠 | 1.7555 | 1.7474 |
      | 倒影 | 1.5145 | 1.5742 |
      | 尼斯湖 | 1.0417 | 1.0413 |
      | 山魈 | 2.6894 | 2.5234 |
      | 歌剧 | 0.8745 | 0.8344 |
      | 辣椒 | 1.7228 | 1.5631 |
      | 天际线拱门 | 1.2067 | 1.1058 |

从实验结果可以看出,提出的方法在大多数情况下优于RFCM,但在某些情况下,RFCM的ASE结果更好。这是因为FCM的目标函数是由隶属度加权的平方误差,而不是纯平方误差距离,所以有时ASE稍大的情况下也可能产生更好的划分。

综上所述,在分类器融合中,W - LWCA方法表现出了较好的性能;在聚类初始化方面,基于蚁群优化的方法能够自动确定聚类数量,并且在大多数情况下取得了比随机初始化更好的聚类结果。未来的研究可以考虑开发更先进的距离度量学习方法,并将这些方法应用于其他分类器集成和聚类算法中。

分类与聚类算法的研究进展与实验分析

实验评估指标详解

在对聚类结果进行评估时,使用了多个评估指标,这些指标从不同角度反映了聚类的质量。
1. 平均平方误差(ASE)
- 定义 :(ASE=\frac{1}{N}\sum_{j = 1}^{M}\sum_{i\in S_j}|x_i - c_j|^2),其核心思想是衡量数据点到其所属聚类中心的平均平方距离。当聚类中心能够很好地代表其所属的数据点时,ASE的值会较小。
- 特点 :随着聚类中心数量的增加,ASE通常会减小。极端情况下,当每个数据点都单独成为一个聚类时,ASE为0。
2. Bezdek的划分系数(VPC)
- 定义 :(VPC=\frac{1}{N}\sum_{i = 1}^{N}\sum_{j = 1}^{M}\mu_{ji}^2),它衡量了数据点在各个聚类中的隶属度分布情况。
- 特点 :当聚类结果为清晰划分时,VPC值接近1;当聚类结果较为模糊时,VPC值较小。
3. 划分熵(VPE)
- 定义 :(VPE=-\frac{1}{N}\sum_{i = 1}^{N}\sum_{j = 1}^{M}\mu_{ji}\log_2\mu_{ji}),用于衡量聚类结果的模糊程度。
- 特点 :当聚类结果完全模糊,即每个数据点对所有聚类的隶属度相等时,VPE达到最大值;当聚类结果为清晰划分时,VPE为0。
4. Xie - Beni函数(VXB)
- 定义 :(VXB=\frac{\sum_{i = 1}^{N}\sum_{j = 1}^{M}\mu_{ji}^2|x_i - c_j|^2}{N\min_{j\neq k}|c_j - c_k|^2}),综合考虑了聚类内部的紧凑性和聚类之间的分离性。
- 特点 :当VXB值较小时,表明聚类结果较好,即聚类内部紧凑且聚类之间分离度高。

算法流程总结

下面通过一个mermaid流程图来总结基于蚁群优化的FCM聚类初始化方法的整体流程:

graph TD;
    A[开始] --> B[路径构建];
    B --> C[聚类中心更新];
    C --> D{是否满足聚类合并条件};
    D -- 是 --> E[聚类合并];
    D -- 否 --> F[评估];
    E --> F[评估];
    F --> G[信息素更新];
    G --> H{是否达到最大迭代次数};
    H -- 否 --> B;
    H -- 是 --> I[结束,使用找到的质心初始化FCM];
关键技术点分析
  1. 信息素机制
    • 作用 :信息素在蚁群优化算法中起着引导蚂蚁搜索的重要作用。蚂蚁根据信息素浓度和启发式信息来选择聚类中心,信息素浓度高的聚类中心更有可能被蚂蚁选择。
    • 更新策略 :信息素的更新与聚类结果的评估相关。当聚类结果较好时,信息素浓度会增加,从而在后续迭代中吸引更多的蚂蚁选择该聚类中心,有助于算法收敛到更优的聚类结果。
  2. 聚类合并机制
    • 目的 :聚类合并机制的引入是为了自动确定聚类的数量。通过设置阈值条件,将较小且距离较近的聚类进行合并,避免出现过多无意义的小聚类,同时扩大搜索范围,提高算法的全局搜索能力。
    • 影响 :该机制使得算法能够自适应地调整聚类数量,减少了人工干预,并且在一定程度上避免了算法陷入局部最优。
实际应用场景
  1. 图像分割 :在MRI图像分割、RGB彩色图像分割等领域,聚类算法可以将图像中的像素点划分为不同的区域,每个区域代表不同的组织或物体。基于蚁群优化的FCM聚类初始化方法能够提高图像分割的准确性和效率。
  2. 数据挖掘 :在处理大规模数据集时,聚类算法可以帮助发现数据中的潜在模式和规律。通过使用有效的聚类初始化方法,可以更快地得到高质量的聚类结果,为后续的数据分析和决策提供支持。
  3. 模式识别 :在语音识别、手写字符识别等模式识别任务中,聚类算法可以对特征向量进行分类,提高识别的准确率。基于蚁群优化的初始化方法能够改善聚类的质量,从而提升模式识别系统的性能。
总结与展望

本文介绍了分类器融合中的加权方法W - LWCA和基于蚁群优化的FCM聚类初始化方法。实验结果表明,W - LWCA在多个数据集上表现出优于多数投票和W - LA的性能,验证了其有效性;基于蚁群优化的方法能够自动确定聚类数量,并且在大多数情况下取得了比随机初始化更好的聚类结果。

未来的研究可以从以下几个方面展开:
1. 开发更先进的距离度量学习方法 :在分类器融合中,距离度量学习对于搜索类内最近邻起着关键作用。开发更先进的距离度量学习方法可以进一步提高W - LWCA的性能。
2. 拓展算法应用范围 :将提出的方法应用于更多的分类器集成和聚类算法中,如Bagging、Boosting等,探索其在不同场景下的有效性。
3. 优化算法参数 :通过实验和理论分析,优化蚁群优化算法中的参数,如信息素蒸发率、启发式信息权重等,提高算法的收敛速度和聚类质量。

总之,分类和聚类算法在机器学习和数据挖掘领域具有重要的应用价值,不断探索和改进这些算法将有助于解决更多实际问题。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值