Python二级--政府报告分词-1

最新推荐文章于 2024-01-21 20:39:59 发布

China@V

最新推荐文章于 2024-01-21 20:39:59 发布

阅读量1.3k

点赞数 1

分类专栏： Python二级文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_39451322/article/details/115311254

版权

政府报告分词

题目一:
概述:


'''
问题1:数据统计。要求:修改PY301-1. py文件中代码，分别统计两个文件中出现次数最多的10词语，作为主题
词，要求词语不少于2个字符，打印输出在屏幕上，输出示例如下: (示例词语非答案 )
2019:改革:10,企业:9, .. (略),深化:2
2018:改革:11,效益:7, .. (略),深化:1
注意:输出格式采用英文冒号和英文逗号，标点符号前后无空格，各词语间用逗号分隔，最后一个词语后无逗
号。
'''

思路:

因为两个文本信息的处理方式都一样，所以定义一个函数来进行操作（偷偷懒）

def fun(txt):
	pass

读取所有文件

    fp = open(txt)
    res = fp.read()
    words = jieba.lcut(res)

词频统计并排序

  d = {
   }
  for word in words:
      if len(word) >= 2:
          d[word] = d.get(word

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

China@V

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

SentencePiece：pieces、字节编码、Unicode字符【LLaMA-7b的分词器共32002个piece】【Chinese-LLaMA-Alpaca中文分词器共20000个piece】

u013250861的博客

08-12

3003

SentencePiece：pieces、字节编码、Unicode字符【LLaMA-7b的分词器共32002个piece】【Chinese-LLaMA-Alpaca中文分词器共20000个piece】

毕业设计 - python选题汇总

m0_76217654的博客

12-19

2746

以下为学长手动整理python 毕业设计项目，完全可以作为当前较新的毕业设计题目选择方向，给各位同学参考毕设帮助，开题指导，资料分享： https://gitee.com/yaa-dc/warehouse-1/blob/master/python/README.md1 基于MapReduce的气候数据的分析 2 基于关键词的文本知识的挖掘系统的设计与实现 3 基于概率图模型的蛋白质功能预测 4 基于第三方库的人脸识别系统的设计与实现 5 基于hbase搜索引擎的设计与实现 6 基于Spark-Stream

2 条评论您还未登录，请先登录后发表或查看评论

Python二级--政府报告分词-2

qq_39451322的博客

03-29

868

政府报告分词题目二: 概述: ''' 问题2:数据关联。要求:修改PY301-2. py文件中代码，对比两组主题词的差异，输出两组的共有词语和分别的特有词语。输出示例如下: (示例词语非答案) 共有词语:改革，(略),深化 2019特有:企业，(略), 加强 2019特有:效益, . (略),创新注意:输出格式采用英文冒号和英文逗号，标点符号前后无空格，各词语间用逗号分隔，最后一个词语后无逗号。 ''' 思路: 因为两个文本信息的处理方式都一样，所以定义一个函数来进行操作（偷偷懒） def f

【头歌-Python】8.3 政府工作报告数据提取(project)-第5关

谛凌的博客

06-11

6193

头歌-Educoder 8.3 政府工作报告数据提取(project) 第5关附件中为2023年政府工作报告，本关要求将报告读取为一个字符串，再利用jieba对中文进行分词，略过停用词后，统计报告中出现的前n个高频词。

【Python二级】政府工作报告两问

weixin_64399725的博客

05-22

1728

python爬虫之2017政府工作报告词频统计

云先生的博客

03-15

6240

python爬虫之2017政府工作报告词频统计工作报告获取中文编码数据清洗字符分割统计 python编码中文显示问题图表显示快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q 插入链接 Ctrl + L 插入代码 Ctrl + K 插入图片 Ctrl + G 提升标题 Ctrl + H 有序列表 Ctrl +

【Python】政府工作报告词云

点滴记忆

04-26

2504

2019政府工作报告.txt https://www.lanzous.com/iby44eh 栗子1： import wordcloud import jieba f=open("2019政府工作报告.txt","r",encoding="utf-8") t=f.read() f.close() ls=jieba.lcut(t) txt=" ".join(ls) w=wo...

小猪的Python学习之旅 —— 15.浅尝Python数据分析：分析2018政府工作报告中的高频词...

weixin_34194087的博客

03-09

708

一句话概括本文：爬取2018政府工作报告，通过**jieba**库进行分词后做词频统计，最后使用 wordcloud 库制作naive词云，非常有意思～引言：昨晚写完上一篇把爬取到的数据写入到Excel后，在回家的路上我就盘算着折腾点有趣的东西玩玩——简单的数据分析：分词，统计词频，然后做成词云；分析点什么玩玩好呢？想起以前看到过一个梗，有人把汪峰唱过的歌的歌词做词频统计，然后自嗨...

政府工作报告词云

xxscwsrym的博客

05-23

584

政府工作报告词云在这里插入代码片 import re import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴分词 import wordcloud # 词云展示库 from PIL import Image # 图像处理库 import matplotlib.pyplot as plt # 图像展示库 # 读取文件 fn = open("政府工作报告.txt","r",encoding="utf-8"

python二级第九套综合练习

yk 坤帝

03-30

3811

python二级第九套综合练习 46、考生文件夹下存在2个Python源文件和2个文本文件。其中，2个python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的政府工作报告。请分别补充2个Python源文件，实现以下功能。问题1(10分)：数据统计。要求：修改PY301-1.py文件中代码，分别统计两个文件中出现次数最多的10词语，作为主题词，要求词语不少于2个字符，打印输出在屏幕上，输出示例如下：(示例词语非答案) 2019:改革:10,企业:9,…（略）,深化:2 2018:改革:1

政府工作报告二问

m15600465900的博客

01-25

283

Python计算机二级大题

zz3035786953的博客

03-25

4909

Python计算机二级大题

计算机二级Python基本排序题-序号46（补充）

最新发布

Miss Z的博客

01-21

1779

问题1：文件内容清洗。要求：在文件PY301-1.py中补充代码，对文件data.txt的内容进行清理，去除中文标点符号，只保留中文、英文、数字、英文标点符号等字符，将结果输出到文件clean.txt中。示例如下：德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所一德国实施工业… (略)f.close()s = ''x = '，。？、‘’“”；：、）\n——（！

Python二级--命运-3

qq_39451322的博客

03-29

2365

命运题目三: 概述: ''' 考生文件夹下存在3个Python源文件，分别对应3个问题，1个文本文件，作为本题目输入数据，请按照源文件内部说明修改代码，实现以下功能: 《命运》是著名科幻作家倪匡的作品。这里给出《命运》的一个网络版本文件，文件名为“命运.txt”。 ''' ''' 问题3 (10分) :在PY301-3. py文件中修改代码，对“命运. txt”文件进行字符频次统计，将所有字符按照频次从高到低排序，字符包括中文、标点、英文等符号，但不包含空格和回车。将排序后的字符及频次输出到考生

python二级第十一套答案

yk 坤帝

03-31

3039

python二级第十一套答案 46、考生文件夹下存在2个Python源文件,分别对应2个问题；1个文本文件,作为本题目输入数据,请按照源文件内部说明修改代码,实现以下功能: 《背影》是朱自清的代表作之一，这里给出《背影》的原文内容,文件名为“背影.txt”。问题1(10分):在PY301-1.py文件中修改代码,对“背影.txt”文件进行字符频次统计, 按照频次由高到低,输出前10个频次最高的字符,不包含空格和回车符,字符之间无间隔,连续输出,将输出结果保存在考生文件夹下,命名为“背影-高频词汇.txt”

python计算机二级相关操作

二哈

03-23

4563

python计算机二级常见的操作有画各种常见的几何图形，例如正方形、等边三角形、菱形等图形，这个时候就需要使用到python中的一个库：turtle，里面有几个比较常用的方法：turtle.left(),turtle.right(),turtle.fd,turtle.seth，其中turtle.left(),turtle.right()是用来向左、向右来旋转一定角度，并且这个角度是相对的，是相对于当前海龟的前进方向的角度，turtle.fd()表示前进一段距离，turtle,seth()也是用来旋转一定角度

Python二级--命运-1

qq_39451322的博客

03-29

2531

命运题目一: 概述: ''' 考生文件夹下存在3个Python源文件，分别对应3个问题，1个文本文件，作为本题目输入数据，请按照源文件内部说明修改代码，实现以下功能: 《命运》是著名科幻作家倪匡的作品。这里给出《命运》的一个网络版本文件，文件名为“命运.txt”。 ''' ''' 问题1 (5分) :在PY301-1. py文件中修改代码，对“命运. txt”文件进行字符频次统计，输出频次最高的中文字符(不包含标点符号)及其频次，字符与频次之间采用英文冒号”:"分隔，示例格式如下: 理:224 '

统计一TXT文档中单词出现频率，输出频率最高的10个单词

u013946723的专栏

10-18

4905

代码如下 import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import java.uti

基于 python获取教育领域新闻进行分词关键词词共现分析 Gephi 软件绘制主题知识图谱

02-11

2432

基于 python获取教育领域新闻进行分词关键词词共现分析 Gephi 软件绘制主题知识图谱（附代码+报告）