目录
一、无监督方法
1、余弦相似度度量
基本思想:
- 获取两个短文本的表示向量
- 计算两个向量的余弦相似度
- 值越大,表示越相似
文本表示方法:
- 通过 TF-IDF 统计方法获取词频表示/向量
- 通过 word2vec 词向量获取句向量
1.1 基于TF-IDF计算词频向量
TF-IDF
TF-IDF是传统的统计方法,用于评估一个词在一个文档集中对某一个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF的意思是词频(Term-frequency),IDF的意思是逆向文件频率(Inverse Document Frequency)。
基本步骤:
- 找出待计算文本的关键词/列出所有的词
- 将找出的关键词组成一