carrot 2 LingoClusteringAlgorithm , STCClusteringAlgorithm 和 BisectingKMeansClusteringAlgorithm算法比较

本文对比了三种文本聚类算法:LingoClusteringAlgorithm擅长生成较长的标签且适合小规模数据;STCClusteringAlgorithm标签较短,适用于大数据集;BisectingKMeansClusteringAlgorithm则能为每个聚类生成多个描述标签。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • org.carrot2.clustering.lingo.LingoClusteringAlgorithm

    适用于 结果聚类,文档数量 <1000,如果文档数量很大的话,花费时间较长

    可以形成,比较长的形式比较好的标签

    org.carrot2.clustering.stc.STCClusteringAlgorithm

            形成的标签比较短

    性能比较好,适用于 大数据量,比如整个索引的聚类

    org.carrot2.clustering.kmeans.BisectingKMeansClusteringAlgorithm

            适用于小数据量的聚类 <1000

            对于一个聚类可以形成多个标签,来描述。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值