Python上市公司年报jieba“环保”词频统计

最新推荐文章于 2025-04-03 21:38:45 发布

天杨扬小

最新推荐文章于 2025-04-03 21:38:45 发布

阅读量3.2k

点赞数 6

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/weixin_43392794/article/details/129105497

版权

目标数据：统计上市公司年报全篇总词数和环保类关键词词数。

以长春高新（000661）2021年年度报告为例。

首先，由于年报文件为pdf格式，jieba无法直接处理，因此我们用pdfplumber读取pdf文件所有内容，并将其拼接成一整个字符串。代码如下：

import pdfplumber
path = '000661：2021年年度报告.pdf'
pdf = pdfplumber.open(path)
text_all = ""
for page in pdf.pages:
    text = page.extract_text() 
    text_all = text_all+'\n'+text #字符串拼接
print(text_all)

运行得到该pdf所有内容的字符串，部分结果截图如下：

其次，使用jieba分词器对所得字符串进行分词切割，并导入停用词词典备用，停用词参考链接：https://www.cnblogs.com/demo-deng/p/9771593.html。代码如下：

import jieba
words = jieba.cut(text_all)
stop = open("stopwords.txt", "r", encoding='utf-8&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天杨扬小

关注关注

6
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

应用Python统计公司年报中指定词出现的次数

白帽阿叁的博客

12-19

1365

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。可以发现每一行存储的都是文件名和指定词在文章中出现的次数。

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

12-13

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+样例

参与评论您还未登录，请先登录后发表或查看评论

1954-2024年各省、地级市环境相关文本词频统计数据

热门推荐

凌小添的博客

05-11

1万+

在前面两篇文章中，我们已经成功用Python爬取到了A股上市公司年报并转换为txt格式，接下来就是对数据的处理，我们以经管类常用的文本挖掘方式为例，编写从多个文本文件中提取关键词并统计词频，然后将结果存储到 Excel 文件中的程序。

上市公司年报数字化词频统计Python代码&数据2010-2023

qq_52891550的博客

04-14

2771

数字化转型是以数字化技术为核心,从操作、管理、服务等多个角度,对不同领域进行全方位的数据分析、优化和应用。从年报MD&A提取领域词频进行分析已经是近两年的热点话题，本文以2010-2023年年报为例，进行数字化词频统计，完整数据代码@“经管有数”。

【Python开发】年报词频统计-附完整代码

weixin_43498642的博客

05-10

1319

拿来就可以用的年报词频统计，根据指定的关键词来统计年报中各个分类的词频，一共有五个类别（人工智能技术指数、区块链技术指数、云计算技术指数、大数据技术指数、实践应用），每个类别中包含数量不等的属于各自的关键词。

上市公司年报_python中jieba_数字化_关键词词频统计_程序+年报样例

09-08

在处理上市公司年报时，可以使用Python中的jieba库进行关键词提取...综上所述，使用Python中的jieba库可以实现上市公司年报的关键词提取和词频统计。这个程序可以帮助我们对年报进行数字化处理，并快速地获取关键信息。

python输出文本至文档_python jieba分词并统计词频后输出结果到Excel和txt文档方法...

weixin_39926014的博客

11-24

762

前两天，班上同学写论文，需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。让我帮她实现这个功能，我在网上查了之后发现jieba这个库还挺不错的。运行环境：安装python2.7.13：https://www.python.org/downloads/release/python-2713/安装jieba：pip install jieba安装xlwt：pip install xlwt具...

基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）

04-09

人工智能_项目实践_上市公司年报_基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）

【上市公司文本分析】python+selium实现根据股票代码和对应年份获取上市公司年报链接（巨潮资讯网）

Ryo_Yuki

04-25

1954

返回虚拟浏览器对象。

上市公司数字经济词频统计，采用python爬虫以及文本分析得出，数据准确可靠

05-02

上市公司数字经济词频统计，采用python爬虫以及文本分析得出，数据准确可靠。包括不限于：数字金融自然语言处理移动支付智慧农业数字营销金融科技智能营销数字货币物联网机器学习征信人工智能联盟链智能投顾开放银行电子商务云计算智能客服人脸识别云计算互联网金融数字货币物联网人工智能移动互联机器学习人工智能云计算物联网工业互联网移动互联网网联电子商务云计算深度学习智能机器人工业互联网虚拟现实智能机器人电子商务物联网人工智能云计算电子商务智能家居移动互联网移动互联 B2B 人工智能 B2C 电子商务物联网数据挖掘商业智能智慧农业物联网人工智能 B2C 电子商务云计算智能机器人移动互联网物联网云计算工业互联网电子商务工业互联网电子商务智能电网 B2B B2C O2O 电子商务网联物联网人工智能电子商务物联网人工智能电子商务云计算智能交通自动驾驶商业智能数据挖掘智慧农业数字营销物联网机器学习人工智能电子商务云计算混合现实工业互联网云

python词频统计代码_python统计词频

weixin_39997443的博客

11-25

1426

一、程序分析（1）将文件读入缓冲区（dst指文本文件存放路径，设置成形参，也可以不设，具体到函数里设置）def process_file(dst): # 读文件到缓冲区try: # 打开文件txt=open(dst,"r")except IOErrorass:print sreturnNonetry: # 读文件到缓冲区bvffer=txt.read()except:pri...

【Python】读取PDF年报文件进行词频统计画词云和柱形图

strangequark的博客

06-20

1358

【Python】本文使用pdfplumber库读取江淮汽车2022年年报PDF文件，使用jieba库进行分词，从而进行词频统计，通过词频统计使用wordcloud库和matplotlib库画词云和柱形图

【复刻论文】企业数字化转型年度报告词频+文本统计

Qiweitaolin的博客

04-06

4786

1]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证[J].管理世界,2021,37(07)[2]韩峰,姜竹青.集聚网络视角下企业数字化的生产率提升效应研究[J].管理世界,

年报文本分析：jieba词频统计

qq_37639139的博客

05-18

2078

目录添词、计数特定章节选取添词、计数 import os import re import time import math import openpyxl import fitz import jieba import jieba.analyse from collections import Counter ''' 使用Python操作PDF：常用PDF库总结 - 知乎 https://zhuanlan.zhihu.com/p/352722932 ''' def pdr_reader(file):

python之词频统计

weixin_54958866的博客

03-13

1万+

中文、英文词频统计。英文有空格或者标点符号分隔，中文单词之间缺少分词符，需要用分词函数

【工具变量】A股上市企业大数据应用（2001-2023年）-参考柏淑嫄实践

m0_65541699的博客

10-19

519

大数据作为企业发展的战略资源和生产要素对企业转型发展具有重要意义。对上市企业大数据应用程度进行测算不仅有助于了解大数据相关技术在企业经营管理中的运用情况，还能为ZF引导社会金融资源进入企业大数据应用提供科学依据。参考柏淑嫄等（2024）的做法，使用Python对上市公司年报进行文本分析，用大数据、数据挖掘、数据可视化等关键词词频总数来度量企业大数据应用程度。[1]柏淑嫄,潘子成,曹伟,等.企业大数据应用对ESG评价的影响[J/OL].世界经济,2024,(08):133-167[2024-09-19].