根据所给文档生成字典

最新推荐文章于 2025-07-04 00:30:00 发布

风之清扬

最新推荐文章于 2025-07-04 00:30:00 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Python 技术杂谈 NLP（自然语言处理）情感与行为分析文章标签：自然语言处理生成字典汉字排序 python

本文链接：https://blog.youkuaiyun.com/a18852867035/article/details/60327361

该博客介绍如何在自然语言处理任务中创建词典，特别是汉字词频字典的生成过程。通过Python代码，从输入文件读取文本，统计汉字的词频，然后按词频降序排列，只保留前5000个高频汉字，最后将结果写入输出文件。文章强调了解决可能出现的编码问题的方法。

在自然语言处理任务中，经常会对文本进行预处理。这种操作中
有一部分十分重要，即建立词典。下面将给出一段讲解的python代码。

# 生成词汇表文件
def gen_vocabulary_file(input_file, output_file):
    vocabulary = {}
    with open(input_file) as f:
        counter = 0
        for line in f:
           counter += 1
           #print line
           tokens = [word for word in line.strip().decode('utf-8')]#这一步有问题，输出的不是汉字