2021-07-14

最新推荐文章于 2021-08-10 20:29:07 发布

原创最新推荐文章于 2021-08-10 20:29:07 发布 · 125 阅读

0 ·

CC 4.0 BY-SA版权

笔记专栏收录该内容

12 篇文章

订阅专栏

该博客探讨了如何通过预先计算并存储IDF值来提高计算速度。作者首先检查是否存在已计算的idf.txt和default_idf.txt文件，如果存在则直接读取，否则遍历文档计算每个词的IDF值，并保存到文件中。这种方法减少了重复计算，优化了性能。

基础工作已经完成的差不多了，但是计算速度还是不理想，经常一次计算要好几分钟，不符合预期，尝试着将IDF值存入文档，下一次使用时直接调用，这样就能大幅度减少重复计算量了。
if os.access("./model/idf.txt", os.F_OK):
file = open(’./model/idf.txt’, mode=‘r’,encoding=‘utf-8’)
file2 = open(’./model/default_idf.txt’, mode=‘r’,encoding=‘utf-8’)
idf_dic = eval(file.read())
default_idf = eval(file2.read())
else:
doc_list = load_data()
idf_dic = {} # idf对应的字典
file = open(’./model/idf.txt’, mode=‘w’,encoding=‘utf-8’) # 打开文件，没有则创建
file2 = open(’./model/default_idf.txt’, mode=‘w’,encoding=‘utf-8’)
tt_count = len(doc_list) # 总文档数
# 每个词出现的文档数
for doc in doc_list:
for word in set(doc):
idf_dic[word] = idf_dic.get(word, 0.0) + 1.0
# 按公式转换为idf值，分母加1进行平滑处理
for k, v in idf_dic.items():
idf_dic[k] = math.log(tt_count / (1.0 + v))
# 对于没有在字典中的词，默认其尽在一个文档出现，得到默认idf值
default_idf = math.log(tt_count / (1.0))
file.write(str(idf_dic))
file2.write(str(default_idf))
return idf_dic, default_idf