1998-2024年上市公司人工智能词频年报文本统计

参考《管理世界》中姚加权(2024)的做法,团队根据上市年报文本内容,对73个人工智能的相关词频进行统计,并计算上市公司-人工智能水平,包括精确词汇、扩展词汇两种方式

在前文,利用上市公司年报文本全文数据,对“人工智能”73个相关词频进行了统计,衡量上市公司人工智能水平,本次继续更新数据至2024年

一、数据介绍

数据名称:上市公司人工智能-年报词频统计

数据范围:A股上市公司

数据年份:1998-2024年

样本数量:68470条,85个变量

数据说明:内含人工智能73个词频、精确和扩展词汇两种方式

二、整理说明

➤爬取上市公司年报原始文件1998-2024年

➤将原始报告文本整理为面板数据

➤统计年报全文的文本长度

➤统计全文中,中英文部分的文本长度

➤构建人工智能术语词典,将词汇扩充到python的jieba库

➤去除停顿词,统计精确词汇、扩展词汇数目

➤计算两种方式下的人工智能水平

三、指标说明

四、数据概览

上市公司数目

上市公司人工智能-excel版本

上市公司人工智能-stata版本

【下载→

方式一(推荐):主页 ↓个人↓简介

经管数据库-优快云博客

方式二:数据下载地址汇总_-优快云博客

### 如何对上市公司人工智能年报进行词频文本统计 #### 方法概述 为了有效分析上市公司人工智能年报并提取有价值的信息,可以通过词频统计来量化特定术语的出现频率。这种方法能够揭示公司在不同时间段内对于某些技术和概念的关注度变化。 #### 数据准备 首先需要收集目标公司历发布的年度报告文档。这些文档通常可以从证券交易所官方网站下载获得。确保所使用的年报版本是最新的,并且包含了完整的正文部分[^1]。 #### 文本预处理 在正式开始词频统计之前,需对原始文本做必要的清理工作: - **去除噪声**:删除无关字符如HTML标签、特殊符号等; - **分词操作**:将连续的大段文字切分成单独词语单元; - **去停用词**:过滤掉常见却无实际语义贡献的词汇(例如“的”,“是”); ```python import jieba from collections import Counter import re def preprocess_text(text): # 去除非中文字符 text = re.sub(r'[^\u4e00-\u9fff]+', ' ', text) # 使用结巴分词库进行中文分词 words = list(jieba.cut(text)) # 加载自定义停止词表 with open('stopwords.txt', encoding='utf-8') as f: stopwords = set(f.read().splitlines()) filtered_words = [word for word in words if word not in stopwords and len(word)>1] return filtered_words ``` #### 构建关键词列表 根据研究目的选取一组具有代表性的关键词汇作为关注对象。这里建议采用已有的研究成果中提到过的73个与AI密切关联的专业术语[^2]。 #### 统计过程实现 完成上述准备工作之后就可以着手编写程序来进行具体的词频计算了。下面给出一段简单的Python脚本来展示这一过程: ```python # 定义要统计的关键字集合 keywords_set = {'机器学习','深度学习'} # 这里仅列举两个例子,请替换为完整的73个关键字集 with open('preprocessed_report.txt',encoding='utf-8')as file: content=file.readlines() all_tokens=[] for line in content: tokens=preprocess_text(line.strip()) all_tokens.extend(tokens) counter_result=Counter(all_tokens) keyword_counts={kw: counter_result[kw] for kw in keywords_set} print(keyword_counts) ``` 此代码片段读取经过前期处理后的纯文本文件`preprocessed_report.txt`,逐行调用前面定义好的函数`preprocess_text()`执行进一步清洗和分割动作,最后借助于标准库中的`collections.Counter`类快速得出各个指定词条在整个文集中出现次数的结果汇总。 #### 可视化呈现 为了让结果更加直观易懂,在得到初步的数据后还可以考虑将其转换成图表形式展现出来。Matplotlib是一个非常适合用来制作静态图标的第三方模块之一。 ```python import matplotlib.pyplot as plt labels, values = zip(*sorted(keyword_counts.items(), key=lambda item:item[1], reverse=True)) plt.barh(labels,values,color='skyblue') plt.title('Keyword Frequency Distribution') plt.xlabel('Frequency') plt.ylabel('Keywords') plt.show() ``` 这段绘图命令会按照从高到低排序的方式排列各条目名称及其对应的数值大小关系,并以横向柱状图形表示出来供观察者参考。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值