76、聚类算法与文本摘要提取研究

最新推荐文章于 2025-08-10 11:33:43 发布

云朵来信

最新推荐文章于 2025-08-10 11:33:43 发布

阅读量65

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能的前沿探索文章标签：聚类算法 PCKM-Mono 文本摘要

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/151001478

人工智能的前沿探索专栏收录该内容

96 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法与文本摘要提取研究

1. 聚类算法对比实验

在聚类算法的研究中，为了展示PCKM - Mono算法的能力，将其与其他四种EM风格的聚类算法进行了对比，这些算法包括纯单调聚类算法、两种纯约束聚类算法（其中一种是最新的）以及经典的聚类算法。

P2Clust ：它是单调聚类的第一种方法。通过修改EM方案期望步骤中使用的距离度量，产生纯单调分区，且不会违反单调性约束，但不考虑成对约束，属于纯单调聚类算法。
COP - Kmeans ：是约束分区K - 均值算法，是约束聚类的第一种方法，作为约束聚类方法的基线对比。它通过修改实例分配到聚类的规则来整合约束，避免违反约束，遇到死胡同时停止，在未遇到死胡同时能产生满足所有约束的分区，属于纯约束聚类算法。
Kmeans ：最初的K - 均值算法，既不考虑成对约束也不考虑单调性约束。
PCSKMeans ：是经典稀疏K - 均值算法的扩展，通过加权惩罚项整合约束，是最新的EM风格的约束聚类方法。

参数设置 ：所有算法都使用EM方案来寻找数据集的分区，许多参数是共享的。参数k表示输出分区的聚类数，总是设置为每个数据集的类别数；允许收敛前的最大迭代次数设置为100；收敛准则是质心移动，当平均质心移动小于10⁻⁴时，认为EM优化过程已收敛；所有算法都使用随机质心初始化。P2Clust算法的内部α系数参数设置为1.1，PCSKMeans算法的稀疏级别设置为1.1。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。