相关介绍
- TF-IDF 算法
如果某个词在 给定文档 中很少出现,但是在给定文档中的 某一篇文章 中出现的次数很大,
该词在很大程度上反映了 该文章 的特性,我们称该词为这篇文章的关键字
参考链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html - 余弦相似性
参考链接:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
测试案例
- 代码部分
# -*- coding: UTF-8 -*-
# import codecs
import jieba.posseg as pseg
from gensim import corpora, models, similarities
# from hotelmatcher.constant import *
class Tfidf:
""" TF-IDF模型比较文本相似度类 """
# 停用词
stop_words = ['酒店', '旅馆']
# 结巴分词后的停用词性
# [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]
stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'm', 'f', 'r']
def __init__(self):
# self.ensure_stop_words()
pass
<