基于内容的过滤:TF-IDF与LDA主题建模
在信息过滤和搜索领域,从文档中提取有价值的特征是关键任务。本文将介绍两种重要的特征提取方法:TF-IDF(词频 - 逆文档频率)和LDA(潜在狄利克雷分配),并探讨它们在内容过滤中的应用。
1. 使用TF-IDF寻找重要词汇
在进行信息过滤或搜索时,我们通常需要关注文档中的词汇和短语。然而,除了停用词外,文档中还存在大量过度使用的词汇,这些词汇对文本描述并无实质性帮助。
例如,在一本关于推荐系统的书中,“recommender”这个词可能频繁出现,但它并不能帮助我们区分不同的文档。相反,如果在一组关于计算机的文章中,只有一篇文章提到了“recommender”,那么这个词对于该文章就具有重要的定义作用。
这种词汇在文档中出现的频率被称为词频(TF),其简单定义如下:
tf(word, document) = 词汇在文档中出现的次数
更常用的公式是:
tf(word, document) = 1 + log(词汇频率)
同时,为了衡量一个词汇在整个文档集合中的重要性,我们引入逆文档频率(IDF),即所有文档的数量除以包含该词汇的文档数量。TF-IDF的定义为:
tf-idf(word, document) = tf(word, document) * idf(word, docume
超级会员免费看
订阅专栏 解锁全文
830

被折叠的 条评论
为什么被折叠?



