python进行中文字频、高频字覆盖率统计

最新推荐文章于 2023-07-10 16:57:25 发布

Smallactive

最新推荐文章于 2023-07-10 16:57:25 发布

阅读量3.2k

点赞数 2

分类专栏： python练习题 python小程序文章标签： python 字频高频字覆盖率孟子

本文链接：https://blog.youkuaiyun.com/qq_41149269/article/details/90338989

版权

本文介绍使用Python对《孟子》进行字频统计，重点排除标点符号，计算高频字（字频>=500）覆盖率，并展示直观的输出结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：用python统计《孟子》总体长度、字种、字频、高频字覆盖率。

《孟子》全文下载：点击下载

高频字：字频>=500的字

本题有三个地方要注意：

1、《孟子》中含有大量的标点符号，统计时应该把它们排除在外。

2、统计字频、高频字覆盖率是难点。

3、如何用相对直观、好看的方式打印输出结果。

源代码：

#《孟子》总体长度
f = open('ex_menzi.txt', 'r', encoding='utf-8')
text=f.read()
for ch in "《》，。：!‧「」『』〈〉；﹖.！ \n？":
    text = text.replace(ch, "")                  # 去掉文章的标点符号
print("《孟子》的总体长度：", len(text))

#《孟子》字种
result = set(text)
print("《孟子》的字种:\n", result)
print("《孟子》的字种总长:", len(result))

#《孟子》字频
my_dict={}
for char in text:
    if char in my_dict:
        my_dict[char] = my_dict[char]+1
    else:
        my_dict[char] = 1

#《孟子》高频字的覆盖率
rate = {}