文本聚类:从数据到洞察
1. 聚类概述
在机器学习领域,主要有监督学习和无监督学习两种类型。监督学习需要我们为算法提供特征和期望输出,例如线性回归中预测奥运游泳运动员的体重,或者其他算法中判断乘客是否幸存。而无监督学习则不同,它能够在没有参考答案的情况下对数据进行操作,甚至我们自己可能都不清楚数据内部的结构,算法会自行尝试确定这种结构。
聚类就是无监督学习算法的一个典型例子。聚类分析的结果是将输入数据分组,使得组内的数据在某些方面更加相似。这是一种通用技术,任何具有概念相似性或距离的实体集合都可以进行聚类。比如,我们可以根据社交媒体账户的共同关注者对其进行聚类,或者根据市场调研中受访者对问卷答案的相似性对调研结果进行聚类。其中,识别具有相似主题的文档是聚类的一个常见应用,这也为我们探讨文本处理提供了理想的机会。
2. 数据下载与提取
我们使用的是 Reuters - 21578 数据集,它是 1987 年路透社新闻专线发布的文章集合,广泛用于文本分类和归类测试。该数据集的文章文本和注释版权归路透社有限公司所有,路透社有限公司和卡内基集团公司仅允许出于研究目的免费分发此数据。
你可以从 Packt 出版社的网站或 https://github.com/clojuredatascience/ch6 - clustering 下载本章的示例代码。示例代码中包含一个脚本,用于下载并解压文件到数据目录,你可以在项目目录中使用以下命令运行该脚本:
script/download-data.sh
另外,在撰写本文时,也可以从 http:
超级会员免费看
订阅专栏 解锁全文
609

被折叠的 条评论
为什么被折叠?



