一、数据简介
本数据库系统性地收录并整理了来自44家主流中文财经新闻网站的公开新闻文本数据,涵盖站点中文名、发文时间、板块名称、首标题、标题、尾标题、作者、图片及正文等关键字段。数据实现实时更新,截至2025年底累计数据量已超过1.3亿条,全面、及时地反映了网络财经资讯的动态传播与内容演进,为基于财经文本的实证研究与应用分析提供了大规模、结构化、高时效的基础数据资源。
二、数据特点
-
覆盖主流财经资讯平台,代表市场关注焦点:数据来源包括东方财富网、新浪财经、和讯网、财联社等在投资者与市场中具有广泛影响力的核心财经网站,能有效捕捉中国财经网络舆论与市场信息的核心脉络。
-
实时性强,支持对市场动态的即时响应分析:与电子报相比,财经网站资讯发布更为迅速。本数据库保持与源站同步更新,可用于研究市场新闻、突发事件、政策发布的即时传播路径及其对金融市场的短期影响。
-
数据规模庞大,主题集中,适合深度挖掘与建模:总量超过1.3亿条,且聚焦于财经垂直领域,为训练领域专用文本分析模型(如情感分析、事件抽取、主题分类)提供了高质量、大规模的训练语料。
三、潜在应用场景
-
金融市场微观结构研究:利用高频率的新闻发布数据,可精确分析新闻热度、情感倾向与股票、债券、期货等资产价格波动、交易量变化之间的关联,尤其适用于事件研究法和高频数据分析;
-
财经舆情监控与传播分析:可通过追踪同一事件在不同财经网站(如东方财富网、澎湃新闻、界面新闻)上的标题表述、发布时序与内容侧重,分析财经信息的传播网络、舆论形成过程与媒体议程设置;
-
量化投资与资讯因子构建:庞大的文本库可用于构建基于新闻情绪、主题热度或分析师观点的量化因子,为算法交易和投资策略的研发提供数据基础。
-
财经文本处理技术开发与验证:该数据集规模大、领域性强、结构清晰,是开发与评测金融领域自然语言处理(NLP)任务(如金融实体识别、自动摘要、关系抽取)的理想实验数据。
CnOpenData中国财经报刊新闻文本数据库基于公开网络来源持续整理而成,以其海量的规模、实时的更新、垂直的领域覆盖以及完整的结构化信息,为学术研究、行业分析、政策评估与技术创新提供了坚实的财经文本数据基础设施。
四、时间区间
|
网站名称 |
起始日期 |
状态 |
截至20251119数据量 |
|---|---|---|---|
|
东方财富网 |
2013-12-12 |
实时更新 |
97237748 |
|
金融界 |
2016-11-25 |
实时更新 |
14534817 |
|
澎湃新闻 |
1970-01-01 |
实时更新 |
5119050 |
|
新浪财经 |
2023-04-26 |
实时更新 |
3567381 |
|
界面新闻 |
1970-01-01 |
实时更新 |
2606476 |
|
和讯网 |
2013-07-15 |
实时更新 |
1338071 |
|
智通财经 |
1970-01-01 |
实时更新 |
1225624 |
|
财联社 |
1970-01-01 |
实时更新 |
1067266 |
|
格隆汇 |
2023-08-08 |
实时更新 |
429395 |
|
大智慧 |
2017-03-01 |
实时更新 |
253351 |
|
腾讯财经 |
2023-08-30 |
实时更新 |
226632 |
|
搜狐财经 |
2024-09-10 |
实时更新 |
206733 |
|
环球时报 |
2018-01-16 |
实时更新 |
190338 |
|
东方网 |
2022-08-21 |
实时更新 |
182796 |
|
新京报 |
2022-04-08 |
实时更新 |
178527 |
|
网易财经 |
2021-06-23 |
实时更新 |
173392 |
|
中金在线 |
2016-08-19 |
实时更新 |
111939 |
|
时代周报 |
2009-07-09 |
实时更新 |
108220 |
|
华夏时报 |
2007-07-02 |
实时更新 |
107653 |
|
创业邦 |
1970-01-01 |
实时更新 |
106622 |
|
中国网 |
2008-08-20 |
实时更新 |
95148 |
|
华尔街见闻 |
2017-06-09 |
实时更新 |
90203 |
|
乐居财经 |
1970-01-01 |
实时更新 |
77026 |
|
消费日报 |
2000-05-18 |
实时更新 |
68160 |
|
新华网 |
2016-10-01 |
实时更新 |
67832 |
|
第一财经日报 |
2017-06-30 |
实时更新 |
62096 |
|
商界 |
1970-01-01 |
实时更新 |
50571 |
|
财华智库网 |
2017-08-17 |
实时更新 |
44755 |
|
全景网 |
1970-01-01 |
实时更新 |
32679 |
|
中国新闻网 |
2013-07-04 |
实时更新 |
31116 |
|
中新经纬 |
2024-07-19 |
实时更新 |
30131 |
|
财经网 |
2019-01-18 |
实时更新 |
29508 |
|
大众证券报 |
2013-09-25 |
实时更新 |
27361 |
|
凤凰网 |
2023-01-31 |
实时更新 |
26090 |
|
财新网 |
2020-12-14 |
实时更新 |
21050 |
|
中财网 |
2024-05-22 |
实时更新 |
20142 |
|
投资界 |
2003-12-17 |
实时更新 |
18434 |
|
投资时报 |
2015-01-19 |
实时更新 |
17103 |
|
央视网 |
2021-05-10 |
实时更新 |
15592 |
|
中国财经报 |
2025-08-11 |
实时更新 |
13729 |
|
理财周刊 |
1970-01-01 |
实时更新 |
10962 |
|
中国政府网 |
2017-10-18 |
实时更新 |
8315 |
|
民航资源网 |
2024-06-07 |
实时更新 |
5047 |
|
法治周末 |
2019-03-20 |
实时更新 |
3421 |
五、字段展示
|
中国财经新闻报纸文本数据字段表 |
|---|
|
站点中文名 |
|
发文时间 |
|
板块名称 |
|
首标题 |
|
标题 |
|
尾标题 |
|
作者 |
|
图片 |
|
正文 |
六、样本数据
|
站点中文名 |
发文时间 |
板块名称 |
首标题 |
标题 |
尾标题 |
作者 |
图片 |
正文 |
|---|---|---|---|---|---|---|---|---|
|
时代周报 |
2020/10/20 |
区域 |
中山调整供地结构 居住用地成交增9倍 |
10月12日,易居房地产研究院发布《全国百城居住用地成交报告》,今年前三季度,全国100个城市居住用地成交面积为48926万平方米,同比增长10.8%。其中,广东中山居住用地成交面积激增926%,增速全国第一。 |
郭瑞婵 |
[] |
中山调整供~告》,…… | |
|
时代周报 |
2020/7/28 |
区域 |
光伏发电助脱贫 高陂村赚足“阳光收入” |
电表箱每增加一度电,就带来0.41元收入。当前,光伏发电已成为高陂村主要扶贫产业。2019年,高陂村有劳动力的相对贫困户人均可支配收入为13756元,远超脱贫标准8266元。 |
陈佳慧 戴睿敏 |
[] |
光伏发电助~光伏发…… | |
|
时代周报 |
2020/6/2 |
区域 |
大湾区直播生意经:从去库存到造品牌 |
大湾区城市带货的直播方式,收获亮眼成绩。如“服装之都”中山沙溪镇,在3月28日直播首日,6个小时成交额近5000万元。有“中国羊毛衫名镇”之称的东莞大朗镇,两小时卖出2.7万件毛衣。 |
陈佳慧 |
[] |
大湾区直播~溪镇,…… | |
|
时代周报 |
2020/2/25 |
区域 |
大湾区科技战“疫”:1天半研发成功新冠病毒核酸检测试剂 |
近两个月以来,大湾区释放科技力量,结合疫情防控需求,升级原有“智造”产品,应用到防控前线。 |
[] |
大湾区科技~需求,…… | ||
|
时代周报 |
2019/9/30 |
区域 |
金融创新赋能湾区经济 |
对于粤港澳大湾区的金融创新而言,一方面自然是制度与科技的创新,但另一方面,如何建立协调机制,匹配粤港澳三地的金融资源,也是创新不可或缺的重要组成部分。 |
[] |
金融创新赋~立协调…… | ||
|
中金在线 |
2023/8/31 |
国内财经 |
黑龙江哈尔滨:市场升腾烟火气 |
经济日报 |
[] |
黑龙江哈尔~启“逛…… | ||
|
中金在线 |
2023/9/7 |
证券要闻 |
在手现金280亿,年内仅剩20亿公开债,新城控股坚守安全底线 |
时代财经 |
[] |
在手现金2~股房企…… | ||
|
中金在线 |
2023/9/3 |
证券要闻 |
所有人将见证历史?美国建国近250年来从未发生过这一幕 |
财联社 |
[] |
所有人将见~一部美…… | ||
|
中金在线 |
2023/8/28 |
证券要闻 |
瑞丰银行上半年非息净收入增长53% 不良贷款率9年来首次低于1% |
时代财经 |
[] |
瑞丰银行上~(60…… | ||
|
中金在线 |
2023/8/25 |
证券要闻 |
接近“市场底”的信号又多了两个! |
Wind万得 |
[] |
接近“市场~,深证…… |
七、相关文献
姜富伟、刘雨旻、孟令超,2024:《大语言模型、文本情绪与金融市场》,《管理世界》第8期。
范小云、王业东、王道平等,2022:《不同来源金融文本信息含量的异质性分析——基于混合式文本情绪测度方法》,《管理世界》第10期。
许雪晨、田侃,2021:《一种基于金融文本情感分析的股票指数预测新方法》,《数量经济技术经济研究》第12期。
张宗新、吴钊颖,2021:《媒体情绪传染与分析师乐观偏差——基于机器学习文本分析方法的经验证据》,《管理世界》第1期。
八、数据更新频率
实时更新
中国财经新闻文本大数据
1201

被折叠的 条评论
为什么被折叠?



