python中利用jieba库统计词频，counts[word] = counts.get(word,0)+1的使用

最新推荐文章于 2024-04-19 14:38:34 发布

原创最新推荐文章于 2024-04-19 14:38:34 发布 · 1.8w 阅读

68 ·

CC 4.0 BY-SA版权

文章标签：

#Python #统计词频 #counts[word] = counts.get(word #0)+1

Python 专栏收录该内容

1 篇文章

订阅专栏

博客介绍了在Python中使用counts[word] = counts.get(word,0)+1来统计词频的方法。当word不在words时返回0，在words中则返回值加1进行累计计数。

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

import jieba       
txt = open("阿甘正传-网络版.txt","r",encoding ="utf-8").read()
words = jieba.lcut(txt)        #用jieba库对文本进行中文分词，输出可能的分词的精确模式
counts ={}            #新建一个空字典
for word in words:
    if len(word) == 1:            #挑出单个的分词（不计数）
        continue
    else:
        counts[word] = counts.get(word,0)+1          #对word出现的频率进行统计，当word不在words时，返回值是0，当word在words中时，返回+1，以此进行累计计数
items = list(counts.items())
items.sort(key = lambda x:x[1],reverse = True)
for i in range(10):
    word,count = items[i]    #返回相对应的键值对
    print("{0}:{1}".format(word,count))

注： counts[word] = counts.get(word,0)+1 是对进行计数word出现的频率进行统计，当word不在words时，返回值是0，当word在words中时，返回+1，以此进行累计计数。

运行结果: