Orange3实战教程：文本挖掘---重复检测

最新推荐文章于 2025-12-03 22:49:17 发布

err2008

最新推荐文章于 2025-12-03 22:49:17 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏： Orange3 实战教程文章标签：数据挖掘自然语言处理深度学习机器学习人工智能神经网络 orange3中文版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/err2008/article/details/149014661

Orange3 实战教程专栏收录该内容

236 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

重复检测（Duplicate Detection）

从语料库中检测并移除重复项。

输入

距离（Distances）：距离矩阵。

输出

无重复语料库（Corpus Without Duplicated）：移除重复项后的语料库。
重复集群（Duplicates Cluster）：属于所选集群的文档。
语料库（Corpus）：附加集群标签的语料库。

重复检测通过聚类算法识别语料库中的重复项。该功能可与 Twitter 小部件结合使用，用于移除转发或其他相似文档。

可通过可视化界面拖动垂直线设置相似度阈值：

向左拖动表示需更高的相似度才被视为重复项（阈值更低）。
也可在控制区域手动输入阈值。

重复检测界面

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

err2008 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。