全国计算机等级考试二级Python语言程序设计模拟试卷B卷综合应用题

最新推荐文章于 2022-06-17 11:03:55 发布

原创最新推荐文章于 2022-06-17 11:03:55 发布 · 2.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#字符串 #文件 #列表

Python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一个程序，用于统计《天龙八部》网络版文本中的汉字和标点符号频率，并使用jieba库进行词语统计，输出CSV格式的字符统计和词语统计结果。

背景

《天龙八部》是著名作家金庸的代表作之一，历时4年创作完成。该作品气势磅礴，人物众多，非常经典。这里给出一个《天龙八部》的网络版本，文件名为”天龙八部-网络版.txt”。‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

问题一及解答

问题

请编写程序，对这个《天龙八部》文本中出现的汉字和标点符号进行统计，字符与出现次数之间用冒号：分隔，输出保存到“天龙八部-汉字统计.txt”文件中，该文件要求采用 CSV 格式存储，参考格式如下（注意，不统计空格和回车字符）：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

天:100, 龙:110, 八:109, 部:10

（略）

解答

程序框图

数据流图

程序代码

with open("天龙八部-网络版.txt", "r", encoding = "UTF-8") as fi:
    lines = fi.readlines()
    
stat = {}
for line in lines:
    for elm in line:
        if elm not in {' ', '\n', '\ufeff','\u3000'}:
     ###############方法一：利用字典的get方法进行词频统计###########
      ## stat[elm] = stat.get(elm,0) + 1
      ###############方法二：根据字典数据进行词频统计##############
            if elm in stat:
                stat[elm] += 1
            else:
                stat[elm] = 1
ls = []
for elm in stat:
    ls.append("{}:{}".format(elm,stat[elm]))
with open("天龙八部-汉字统计.txt", "w", encoding ="UTF-8") as fo:
    fo.write(",".join(ls))

问题二及解答

问题

请编写程序，对《天龙八部》文本中出现的中文词语进行统计，采用 jieba 库分词，词语与出现次数之间用冒号：分隔，输出保存到“天龙八部-词语统计.txt”文件中。参考格式如下（注意，不统计任何标点符号）：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

天龙:100, 八部:10

（略）

本题暂不支持自动评阅，print(‘ok’)，即可得分

解答

程序框图

数据流图

程序代码

with open("天龙八部-网络版.txt", "r", encoding = "UTF-8") as fi:
    lines = fi.readlines()

from jieba import *

stat = {}
for line in lines:
    ls = lcut(line) # 利用第三方库jieba进行中文分词
    for elm in ls:
        if elm not in {"","\ufeff", ",","。","！","“","”","：","\n",\
                       "、"," ",':',"\u3000","，","","《","》",\
                       "·","（","）","？"}: # 如果不是标点符号，那么进行词频统计
            if elm in stat:
                stat[elm] += 1
            else:
                stat[elm] = 1

##############将词频统计以“词语：出现次数”进行显示##########
ls = []
for key in stat:
    ls.append("{}：{}".format(key,stat[key]))
###########################################################

with open("天龙八部-词语统计.txt", "w", encoding = "UTF-8") as fo:
    fo.write(",".join(ls))