上市公司人工智能年报词频文本统计(73个词频)(1999-2023年)

数据名称:上市公司人工智能年报73个词频文本统计

数据年份:1999-2023

数据范围:A股上市公司

数据来源:巨潮资讯网

数据格式:面板数据

样本数量:63052条,84个变量

参考文献

[1]姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.

统计方法

参考《管理世界》中姚加权(2024)的方法,团队根据上市年报文本内容,对73个人工智能的相关词频进行统计,并计算上市公司-人工智能水平,包括精确词汇、扩展词汇两种方式。利用上市公司年报文本全文数据对“人工智能”73个相关词频进行了统计,最终衡量上市公司人工智能水平。

数据指标(部分)

数据预览

xlsx版

sta版

【下载→

方式一(推荐):主页个人简介

方式二:https://download.youkuaiyun.com/download/paperdata666/89922153

### 如何对上市公司人工智能年报进行词频文本统计 #### 方法概述 为了有效分析上市公司人工智能年报并提取有价值的信息,可以通过词频统计来量化特定术语的出现频率。这种方法能够揭示公司在不同时间段内对于某些技术和概念的关注度变化。 #### 数据准备 首先需要收集目标公司历发布的度报告文档。这些文档通常可以从证券交易所官方网站下载获得。确保所使用的年报版本是最新的,并且包含了完整的正文部分[^1]。 #### 文本预处理 在正式开始词频统计之前,需对原始文本做必要的清理工作: - **去除噪声**:删除无关字符如HTML标签、特殊符号等; - **分词操作**:将连续的大段文字切分成单独词语单元; - **去停用词**:过滤掉常见却无实际语义贡献的词汇(例如“的”,“是”); ```python import jieba from collections import Counter import re def preprocess_text(text): # 去除非中文字符 text = re.sub(r'[^\u4e00-\u9fff]+', ' ', text) # 使用结巴分词库进行中文分词 words = list(jieba.cut(text)) # 加载自定义停止词表 with open('stopwords.txt', encoding='utf-8') as f: stopwords = set(f.read().splitlines()) filtered_words = [word for word in words if word not in stopwords and len(word)>1] return filtered_words ``` #### 构建关键词列表 根据研究目的选取一组具有代表性的关键词汇作为关注对象。这里建议采用已有的研究成果中提到过的73个与AI密切关联的专业术语[^2]。 #### 统计过程实现 完成上述准备工作之后就可以着手编写程序来进行具体的词频计算了。下面给出一段简单的Python脚本来展示这一过程: ```python # 定义要统计的关键字集合 keywords_set = {'机器学习','深度学习'} # 这里仅列举两个例子,请替换为完整的73个关键字集 with open('preprocessed_report.txt',encoding='utf-8')as file: content=file.readlines() all_tokens=[] for line in content: tokens=preprocess_text(line.strip()) all_tokens.extend(tokens) counter_result=Counter(all_tokens) keyword_counts={kw: counter_result[kw] for kw in keywords_set} print(keyword_counts) ``` 此代码片段读取经过前期处理后的纯文本文件`preprocessed_report.txt`,逐行调用前面定义好的函数`preprocess_text()`执行进一步清洗和分割动作,最后借助于标准库中的`collections.Counter`类快速得出各个指定词条在整个文集中出现次数的结果汇总。 #### 可视化呈现 为了让结果更加直观易懂,在得到初步的数据后还可以考虑将其转换成图表形式展现出来。Matplotlib是一个非常适合用来制作静态图标的第三方模块之一。 ```python import matplotlib.pyplot as plt labels, values = zip(*sorted(keyword_counts.items(), key=lambda item:item[1], reverse=True)) plt.barh(labels,values,color='skyblue') plt.title('Keyword Frequency Distribution') plt.xlabel('Frequency') plt.ylabel('Keywords') plt.show() ``` 这段绘图命令会按照从高到低排序的方式排列各条目名称及其对应的数值大小关系,并以横向柱状图形表示出来供观察者参考。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值