1.使用TF-IDF算法,找出两篇文章的关键词; 2.每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频); 3.生成两篇文章各自的词频向量; 4.计算两个向量的余弦相似度,值越大就表示越相似。 具体实现步骤/内容来源 相关数学知识:余弦