1.数据预处理:数据清洗,停用词必清洗,
2.多个句子用分词器进行分词,组合成语料库,
语料库是所有句子中的词的合集
3.然后对每个句子找语料库出现的次数,形成词频向量(也可以用Word2Vec,Gensim)
然后用余弦定理,对两个向量求cos角,从而获得两个向量的相似度
1.数据预处理:数据清洗,停用词必清洗,
2.多个句子用分词器进行分词,组合成语料库,
语料库是所有句子中的词的合集
3.然后对每个句子找语料库出现的次数,形成词频向量(也可以用Word2Vec,Gensim)
然后用余弦定理,对两个向量求cos角,从而获得两个向量的相似度
7159

被折叠的 条评论
为什么被折叠?