
自然语言处理
麓山coder
这个作者很懒,什么都没留下…
展开
-
TF-IDF
TF-IDF对于一篇文章,怎样抽取其中的关键字。首先容易想到的是计算每个词的词频(term frequence),然后然后按照词频进行排序,选取词频最高的几个词。然而这样的结果必然是 ‘的’,‘是’ .. .这之类的词的频率比较高。我们可以过滤掉这些常见的词。 词频=词频文章长度 词频 = \frac{词频}{文章长度} 假如一篇关于机器学习的文章,出现频率最高的词为 ‘机器学习’、‘算法’,原创 2017-04-08 17:11:35 · 441 阅读 · 0 评论 -
文档余弦相似度
(1)使用TF-IDF算法,找出两篇文章的关键词; (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频); (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦相似度,值越大就表示越相似。原创 2017-04-08 17:14:14 · 951 阅读 · 0 评论