上市公司人工智能年报词频文本统计(73个词频)（1999-2023年）

原创已于 2025-01-07 15:35:22 修改 · 1.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #搜索引擎

于 2024-11-15 22:07:11 首次发布

数据名称：上市公司人工智能年报73个词频文本统计

数据年份：1999-2023

数据范围：A股上市公司

数据来源：巨潮资讯网

数据格式：面板数据

样本数量：63052条，84个变量

参考文献

[1]姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率？——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.

统计方法

参考《管理世界》中姚加权（2024）的方法，团队根据上市年报文本内容，对73个人工智能的相关词频进行统计，并计算上市公司-人工智能水平，包括精确词汇、扩展词汇两种方式。利用上市公司年报文本全文数据对“人工智能”73个相关词频进行了统计，最终衡量上市公司人工智能水平。

数据指标（部分）

数据预览

xlsx版

sta版

【下载→

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

经管数据库

关注关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

上市公司年报数字化词频统计Python代码&数据2010-2023

qq_52891550的博客

04-14

3105

数字化转型是以数字化技术为核心,从操作、管理、服务等多个角度,对不同领域进行全方位的数据分析、优化和应用。从年报MD&A提取领域词频进行分析已经是近两年的热点话题，本文以2010-2023年年报为例，进行数字化词频统计，完整数据代码@“经管有数”。

精选资源

1999-2023年上市公司人工智能年报词频统计数据（年报词频统计）.xlsx

12-02

1999-2023年上市公司人工智能词频统计数据（年报词频统计） 1、时间：1999-2023年 2、来源：上市公司年报 3、指标：股票代码、公司简称、年报标题、年份、行业名称、行业代码、全文-文本总长度、仅中英文-文本总长度...

参与评论您还未登录，请先登录后发表或查看评论

【Python开发】年报词频统计-附完整代码

weixin_43498642的博客

05-10

1679

拿来就可以用的年报词频统计，根据指定的关键词来统计年报中各个分类的词频，一共有五个类别（人工智能技术指数、区块链技术指数、云计算技术指数、大数据技术指数、实践应用），每个类别中包含数量不等的属于各自的关键词。

上市公司人工智能MD&A报告词频文本统计（2001-2023年）

paperdata666的博客

02-05

774

MD&A文本筛选：2014年及以前主要在“董事会报告”中筛选，2015年主要在“管理层讨论与分析”中筛选，2016年及往后主要从“经营情况讨论与分析”中筛选，2021-2023年主要在“管理层讨论与分析”中提取。参考《管理世界》中姚加权（2024）的做法，团队根据上市年报MD&A文本内容，对73个人工智能的相关词频进行统计，并计算上市公司-人工智能水平，包括精确词汇、扩展词汇两种方式。数据名称：上市公司人工智能-MD&A报告73个词频、文本统计。➤统计MD&A文本中，中英文部分的文本长度。

1999-2023年上市公司人工智能词频统计数据（年报词频统计）

m0_71334485的博客

12-04

658

1999-2023年上市公司人工智能词频统计数据（年报词频统计）

【更新至2023年】1999-2023年上市公司人工智能词频统计数据（年报词频统计）

2201_75673146的博客

05-11

617

1999-2023年上市公司人工智能词频统计数据（年报词频统计）

1999-2023年上市公司年报数字化转型词频文本分析数据

xiaozhuzhu1995的博客

03-28

477

数字化转型A：参考《管理世界》中吴非（2021）的做法，对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计。数字化转型B：参考《财贸经济》中赵宸宇（2021）的做法，对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计。数字化转型C：参考《经济研究》中甄红线（2023）的做法，对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计。数据说明：内含数字化转型314个词频、各维度水平、文本统计面板。

A股上市公司年报爬虫及关键词词频分析（2004-2023年）

xiaozhuzhu1995的博客

11-21

2808

本课程从变量设计的技术实现上来看，通过Python爬虫功能归集整理了上海交易所、深圳交易所全部A股上市企业的年度报告，并通过Java PDFbox库提取所有文本内容，并以此作为数据池供后续的特征词筛选。对于想学习利用python进行年报爬取和词频分析过程的用户，我们推出以下课程，不仅可以学习python爬虫以及数据分析技能，还能对上市公司年报进行个性化词频分析。预期结果：从excel表格中批量下载pdf版本的年报，将其命名为"股票代码_公司简称_ 年份"的格式，并全部转为txt文件。

企业人工智能-年报73个词频、文本统计（1999-2023年）

07-27

在前文，团队利用上市公司年报文本全文数据，对“人工智能”73个相关词频进行了统计，衡量上市公司人工智能水平，本次团队继续更新数据至2023年相关数据：人工智能企业数据库，上市公司年报原文数据，数字化转型...

大模型学习基础（五）强化学习（Reinforcement Learning，RL）初步

qq_56095294的博客

12-13

351

前面的文章简单介绍过，传统的监督学习所使用的数据集是（特征，标签），有“标签”即明确的知晓正确的输出应该是什么。而实际的情况是，环境的状态S是由多个Si构成的，每训练一组S-a即训练一个多分类问题，把这些问题的损失函数（交叉熵）加在一起，即可训练出在不同的状态下应该使用什么动作。模型在选择一个动作之后，这个动作实际是对Environment发生，相应的Environment会给模型一个回馈Reward，然后再给模型一个新的Observation，模型继续选择新的动作，循环此过程。

数据分析Agent白皮书：揭秘Data x AI的底层逻辑与未来关键

LyAGent的博客

12-18

342

《2025数据分析Agent白皮书》指出，数据分析Agent正成为AI落地的核心形态，实现从"人人分析"到"人人消费"的转变。白皮书系统解析了其技术架构（包括Query/Document/DeepAnalyze三大Agent能力）、行业实践（能源/制造/零售等领域）及落地路径，强调需突破数据准度、分析深度与消费广度三大挑战。未来，数据分析Agent将深度融入业务流程，推动"洞察即行动"的自动化决策模式。该技术有望彻底改变企业数据消费方式，使数据智能

以太联的自愈功能与看门狗机制解析

suzhou_speeder的博客

12-15

1107

看门狗(Watchdog)是一种硬件或软件实现的定时器机制，其核心功能是监控系统或程序的运行状态，防止程序跑飞或陷入死循环。案例：车载以太网交换机通过硬件看门狗实时监测链路状态，若检测到链路中断(如3ms内未收到心跳包)，立即启用备用路径，确保刹车、转向等关键系统永不掉线。案例：某智能工厂的PLC(可编程逻辑控制器)采用软件看门狗，若主程序因干扰死机，看门狗机制自动重启PLC，恢复生产流程。三者协同工作，实现“设备-交换机-网络”三级自愈，显著提升网络可靠性、降低运维成本，并为企业数字化转型提供坚实基础。

多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

Lab4AI的博客

12-17

500

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

Transformer架构的原理是什么？

SACKings的博客

12-15

717

对于“Thinking”这个词，它的输出向量可能包含了90%它自己的信息和10%“Machines”的信息。而对于“Machines”，它的输出可能包含了70%它自己的信息和30%“Thinking”的信息。Transformer 架构的原理是理解现代大模型（如 GPT、BERT、T5 等）的基石。正是因为这些原理上的优势，Transformer才取代了RNN和CNN，成为了当今AI大模型时代的统治性架构。的（打乱输入顺序，输出可能不变），它没有内置的位置概念。Q·K 然后Softmax。

AIDD-人工智能药物设计-扩散模型热力学：从 AI 提取物理能量

itwangyang520的博客

12-14

1125

扩散模型的核心是加噪与去噪。这对业界的启示是，要实现精准医疗，特别是针对耐药突变的药物设计，不能仅依赖大语言模型（Large Language Model, LLM）处理序列。他们从文献和数据库中挖掘了过去被忽略的细节：氨基酸的替换、插入、缺失，以及关键的磷酸化修饰，最终整理出 4032 对新的激酶 - 配体数据。GeneGPT 曾展示了大语言模型（LLM）在生物医药领域的潜力，而 OpenBioLLM 提出了不同于 GeneGPT 单体（Monolithic）架构的方案：组建由「专家」构成的团队。

神经网络基础

m0_54291751的博客

12-17

502

归回问题用的最多的损失函数: **Smooth L1;**+ 分类问题用的最多的损失函数： ****(也可以用于二分类);```python# 1. 加载csv文件数据集.data = pd.read_csv('data/手机价格预测.csv')# print(data.head()) # 查看前五行数据# data.info() # 查看数据是否有缺失值# 2. 获取x特征列和 y标签列.# 3. 把特征列转成浮点型.

深入NVIDIA Nemotron-3：高效准确的技术、工具与数据深度解析

最新发布

专注于人工智能领域的小何尚

12-18

576

摘要：NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构，结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算，支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练，使智能体掌握复杂任务执行能力。技术亮点包括：1)混合架构实现超长上下文推理；2)开源RL训练环境支持智能体开发；3)原生支

nl2sql技术实现自动sql生成之Spring AI Alibaba Nl2sql

疾风sxp的博客

12-15

956

上一节我们在介绍了自然语言转sql的基本思路，今天我们通过实操来解决这一技术实现，通过Spring AI Alibaba开源的nl2sql框架进行这块技术的讲解。

上市公司人工智能年报词频文本统计

02-07

### 如何对上市公司人工智能年报进行词频文本统计 #### 方法概述为了有效分析上市公司的人工智能年报并提取有价值的信息，可以通过词频统计来量化特定术语的出现频率。这种方法能够揭示公司在不同时间段内对于某些技术和概念的关注度变化。 #### 数据准备首先需要收集目标公司历年发布的年度报告文档。这些文档通常可以从证券交易所官方网站下载获得。确保所使用的年报版本是最新的，并且包含了完整的正文部分[^1]。 #### 文本预处理在正式开始词频统计之前，需对原始文本做必要的清理工作： - **去除噪声**：删除无关字符如HTML标签、特殊符号等； - **分词操作**：将连续的大段文字切分成单独词语单元； - **去停用词**：过滤掉常见却无实际语义贡献的词汇（例如“的”，“是”）； ```python import jieba from collections import Counter import re def preprocess_text(text): # 去除非中文字符 text = re.sub(r'[^\u4e00-\u9fff]+', ' ', text) # 使用结巴分词库进行中文分词 words = list(jieba.cut(text)) # 加载自定义停止词表 with open('stopwords.txt', encoding='utf-8') as f: stopwords = set(f.read().splitlines()) filtered_words = [word for word in words if word not in stopwords and len(word)>1] return filtered_words ``` #### 构建关键词列表根据研究目的选取一组具有代表性的关键词汇作为关注对象。这里建议采用已有的研究成果中提到过的73个与AI密切关联的专业术语[^2]。 #### 统计过程实现完成上述准备工作之后就可以着手编写程序来进行具体的词频计算了。下面给出一段简单的Python脚本来展示这一过程： ```python # 定义要统计的关键字集合 keywords_set = {'机器学习','深度学习'} # 这里仅列举两个例子，请替换为完整的73个关键字集 with open('preprocessed_report.txt',encoding='utf-8')as file: content=file.readlines() all_tokens=[] for line in content: tokens=preprocess_text(line.strip()) all_tokens.extend(tokens) counter_result=Counter(all_tokens) keyword_counts={kw: counter_result[kw] for kw in keywords_set} print(keyword_counts) ``` 此代码片段读取经过前期处理后的纯文本文件`preprocessed_report.txt`，逐行调用前面定义好的函数`preprocess_text()`执行进一步清洗和分割动作，最后借助于标准库中的`collections.Counter`类快速得出各个指定词条在整个文集中出现次数的结果汇总。 #### 可视化呈现为了让结果更加直观易懂，在得到初步的数据后还可以考虑将其转换成图表形式展现出来。Matplotlib是一个非常适合用来制作静态图标的第三方模块之一。 ```python import matplotlib.pyplot as plt labels, values = zip(*sorted(keyword_counts.items(), key=lambda item:item[1], reverse=True)) plt.barh(labels,values,color='skyblue') plt.title('Keyword Frequency Distribution') plt.xlabel('Frequency') plt.ylabel('Keywords') plt.show() ``` 这段绘图命令会按照从高到低排序的方式排列各条目名称及其对应的数值大小关系，并以横向柱状图形表示出来供观察者参考。 ---