数据概述
企业政策相似度是运用自然语言处理技术对企业年报与政府工作报告文本关联性进行量化评估的核心指标,其创新性体现在将宏观政策效果评估与微观企业决策分析有机结合。本数据集创新性地采用Word2Vec词嵌入模型结合余弦相似度计算方法,实现了非结构化文本到结构化指标的转化,克服了传统政策量化方法的不足,为观测企业对产业政策的动态响应提供了新视角。
研究显示,该指标能精准识别三类政策敏感主体:民营企业、中小企业及东部区域企业,并发现政策影响存在双重路径:短期通过缓解融资压力与补贴扶持改善财务表现,长期则引导企业调整战略方向。这一成果不仅为政策效果评估、产业敏感性识别和资源优化配置提供了科学依据,更对政府政策工具优化和企业战略决策具有重要参考价值。本研究借鉴覃飞、沈艳(2021)的方法论,特别构建了农村电商示范县专题数据集。
技术实现
数据处理流程包含:
文本预处理:采用分词技术处理政府文件和企业报告,正则表达式清除非中文内容及停用词
信息提取:智能解析文件元数据(企业编码、名称及年份)
模型训练:建立含政府文本(3次语义增强)与企业文本的混合语料库,训练300维词向量模型
相似度计算:通过词向量均值表征文本,计算年度政企文本余弦相似度
标准化处理:对原始相似度进行min-max归一化,输出包含企业标识、年份及[0,1]区间标准化得分的可比数据集
基础信息
- 数据来源:A股上市公司年报及政府工作报告(人工校验)
- 时间范围:1992-2024年
- 覆盖范围:全部A股上市公司
- 存储格式:Excel文件
数据指标
股票代码、公司简称、报告年份年份、标准化政策相似度
数据展示
参考文献
[1]覃飞,沈艳.产业政策关联度对公司业绩影响研究[J].数量经济技术经济研究,2021,38(09):117-138.
【下载→
方式一(推荐):主页 ↓个人↓简介
方式二:数据下载地址汇总_-优快云博客