爬取《政府工作报告》词云展示并做词频统计

最新推荐文章于 2024-10-23 11:51:14 发布

unique_xl

最新推荐文章于 2024-10-23 11:51:14 发布

阅读量5.1k

点赞数 5

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.youkuaiyun.com/unique_xl/article/details/110671489

本文介绍了如何使用Python爬取《政府工作报告》，进而生成词云展示，并进行了词频统计，展示了统计结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取《政府工作报告》词云展示并做词频统计

爬取《政府工作报告内容代码：

from requests import *
from bs4 import BeautifulSoup
r=get("http://www.hgnu.edu.cn/2020/0531/c1112a61314/page.htm",timeout=10)
r.encoding="utf-8"
s=BeautifulSoup(r.text,"html.parser")
f=open("报告.txt","w",encoding="utf-8")
L=s.find_all("p")
for c in L:
    f.write("{}\n".format(c.text))

f.close()

词云展示：

引用图：
在这里插入图片描述

词频统计

import re
import collections  # 词频统计库
import numpy

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

unique_xl

关注关注

5
点赞
踩
53

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python 爬虫实战：企业与政府定期报告数据抓取与分析

u014481728的博客

05-06

1788

在当今信息爆炸的时代，企业和政府发布的定期报告（如企业财报、政府工作报告等）是投资者、研究人员、政策制定者和普通公众了解经济动态、行业趋势和政策走向的重要窗口。然而，这些报告通常以PDF或网页形式散落在各个官网，手动收集和整理耗时费力。今天，我将带领大家利用Python爬虫技术，自动抓取企业与政府定期报告数据，并进行深度分析，挖掘其中的宝贵信息。

利用python爬取网页做词云分析——2019年政府工作报告

草地打滚的熊

03-28

5862

直接上代码 #!/usr/bin/python # -*- coding:utf-8 -*- import matplotlib.pyplot as plt from PIL import Image import numpy as np from wordcloud import WordCloud from bs4 import BeautifulSoup import jieba imp...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫之2017政府工作报告词频统计

云先生的博客

03-15

6273

python爬虫之2017政府工作报告词频统计工作报告获取中文编码数据清洗字符分割统计 python编码中文显示问题图表显示快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q 插入链接 Ctrl + L 插入代码 Ctrl + K 插入图片 Ctrl + G 提升标题 Ctrl + H 有序列表 Ctrl +

政府工作报告

weixin_46945014的博客

01-01

190

# -*- coding: utf-8 -*- """ Spyder Editor This is a temporary script file. """ # #1.通过网络数据采集获取政府工作报告（2014-2021年度报告）， #并对政府工作报告历年的数据进行存储、数据整理、中文分词、统计词语关联，并可视化， #同时给出政府工作报告重心随时间的转移情况统计。 #导入必要的包 import requests from lxml import etree import jieba from wordcl

利用python爬取工作报告

weixin_52260515的博客

11-11

2293

利用python爬取工作报告

爬取政府工作报告文本-Python

最新发布

Stata连享会

10-23

811

政府工作报告》是一份具有法律效力的官方文件，它不仅汇总了各地区过去一年的工作成果，还展望了未来的发展蓝图，因此，它对于经济建设与发展的研究具有不可替代的价值。本文将指导你如何使用 Python 编程语言，从中国经济网这一权威平台上爬取全国各省市的《政府工作报告》。

【头歌-Python】8.3 政府工作报告数据提取(project)-第1~3关

谛凌的博客

06-11

8514

附件中为2023年政府工作报告，本关要求将报告文件读取为一个字符串。头歌-Educoder 8.3 政府工作报告数据提取(project) 前三关

利用jieba和wordcloud写政府工作报告的词云统计和显示

tdjack的博客

02-01

2138

非科班小白，断断续续学习一些python相关的知识，做个简单记录，方便以后查阅，代码中的filename文件需要在py文件同一个文件夹内，另外chinamap这个图片也需要在同意文件夹内。图片需要白色背景 import jieba from wordcloud import WordCloud from scipy.misc import imread ###排除词库 excludes...

基于Python词云分析政府工作报告关键词

09-16

主要介绍了基于Python词云分析政府工作报告关键词,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

【头歌-Python】8.3 政府工作报告数据提取(project)-第5关

谛凌的博客

06-11

6617

头歌-Educoder 8.3 政府工作报告数据提取(project) 第5关附件中为2023年政府工作报告，本关要求将报告读取为一个字符串，再利用jieba对中文进行分词，略过停用词后，统计报告中出现的前n个高频词。

关键词数量统计python_利用python统计《十九大报告》中的关键词和词频

weixin_30972263的博客

01-14

834

利用python统计《十九大报告》中的关键词、报告摘要和词频。引用snowNLP。得到的结果：1、关键词:前五个关键词为 ['发展', '人民', '中国', '党', '建设']2、报告摘要：强调坚定道路自信、理论自信、制度自信、文化自信;明确全面深化改革总目标是完善和发展中国特色社会主义制度、推进国家治理体系和治理能力现代化;明确全面推进依法治国总目标是建设中国特色社会主义法治体系、建设社会...

Python实例12：政府工作报告词云

LuckSugar

08-06

3573

Python实例12：政府工作报告词云基本思路：读取文件、分词整理；设置并输出词云；观察结果，优化迭代； # GovRptWordCloudv1.py import jieba import wordcloud f = open("E:\\python\\learn\\2020政府工作报告.txt", "r", encoding="utf-8") t = f.read() f.close() ls = jieba.lcut(t) txt = " ".join(ls) w = wordcl

【Python开发】年报词频统计-附完整代码

weixin_43498642的博客

05-10

1392

拿来就可以用的年报词频统计，根据指定的关键词来统计年报中各个分类的词频，一共有五个类别（人工智能技术指数、区块链技术指数、云计算技术指数、大数据技术指数、实践应用），每个类别中包含数量不等的属于各自的关键词。

【Python】政府工作报告词云

点滴记忆

04-26

2519

2019政府工作报告.txt https://www.lanzous.com/iby44eh 栗子1： import wordcloud import jieba f=open("2019政府工作报告.txt","r",encoding="utf-8") t=f.read() f.close() ls=jieba.lcut(t) txt=" ".join(ls) w=wo...

【头歌-Python】8.3 政府工作报告数据提取(project)-第4关

谛凌的博客

06-11

9118

头歌-Educoder 8.3 政府工作报告数据提取(project) 第4关附件中为2023年政府工作报告，本关要求将报告中所有包含数字字符的语句进行提取，并根据输入的关键词，将报告中与关键词相关联的语句筛选后输出(限于篇幅，本题仅列出部分关联词）。为保证评测结果一致性，提交代码中关键字的关联词列表数据必须与下述列表相同。

Python分析3月政府工作报告

weixin_34396902的博客

05-03

1151

概述有时候我们抓不到一些文章里面的重点，python里jieba库分词很好的为我们提供了一个好的解决方案。下面就讲一个实际使用的一个例子来说明。首先，我们要将网页的内容请求并解析出来，下面是政府工作报告的路径：www.gov.cn/premier/201…利用request库的get(url)方法请求拿到响应的数据，发现报告文字内容大多在段落p标签中。可以引用BeautifulSoup的find_...

python实现政府工作报告词云的生成（嵩天老师）

m0_61903191的博客

04-14

6414

实例12：政府工作报告词云基本思路 -步骤1：读取文件、分词整理 -步骤2：设置并输出词云 -步骤3：观察结果，优化迭代

Python爬虫实战：爬取官员官方信息

LucyGill的博客

09-26

5945

最近导师给了一个任务：用Python爬取中国官员的官方信息，然后将信息中的关键信息（时间地点任务blablabla）抽取出来，绘制他们的关系图。千里之行始于足下，我就从Python爬虫开始。首先上代码： from urllib import request from bs4 import BeautifulSoup url='http://cpc.people.com.cn/gbzl/