文本聚类:从基础到大规模应用
1. 文档向量的稀疏性与预处理
在处理文档时,单个文档中出现的独特单词数量通常远小于正在处理的文档集合中所有文档里出现的独特单词数量。这就导致高维文档向量相当稀疏。
为了提高文档聚类的效果,我们需要进行一些预处理操作,主要包括去除停用词和词干提取。
1.1 去除停用词
很多标题之间的相似性是由那些对内容意义贡献不大的常用词产生的,例如 “a”、“says” 和 “and” 等。为了避免产生虚假的相似性,我们应该过滤掉这些词。
以下是一个计算两个习语余弦相似度的 Clojure 代码示例:
(defn ex-6-6 []
(let [a (tokenize "music is the food of love")
b (tokenize "war is the locomotive of history")]
(add-documents-to-dictionary! dictionary [a b])
(cosine-similarity (tf-vector dictionary a)
(tf-vector dictionary b))))
;; 0.5
这两个文档的相似度为 0.5,但它们共同的单词只有 “is”、“the” 和 “of”。理想情况下,我们希望去除这些词。
1.2 词干提取
考虑另外两个短语:
- “Music is the food of love
文本聚类:从预处理到大规模应用
超级会员免费看
订阅专栏 解锁全文

1200

被折叠的 条评论
为什么被折叠?



