一、数据简介
本数据库系统收录了来自国内37家主流财经及综合类报刊电子版的公开新闻文本数据,覆盖站点中文名、发文时间、板块名称、首标题、标题、尾标题、作者、图片、正文等关键字段,提供全面结构化的新闻内容。数据持续实时更新,截至2025年底累计收录新闻量已超过1471万条,为观察中国财经舆论动态、市场信息传播及媒体趋势提供了大规模、可持续的文本资源。
二、数据特点
-
来源广泛且具有代表性:数据涵盖中国证券报、上海证券报、证券时报、人民日报、证券日报等国内影响力广泛的财经及综合报刊,能够反映主流财经舆论场的核心声音。
-
时间跨度大,支持长期研究:数据库中包含20家报刊十年以上的连续观测数据,适用于宏观经济、市场周期、政策演变等长时段议题的纵向研究。
-
实时更新,贴近动态变化:数据更新与各报刊发布保持同步,支持对市场热点、舆情事件、政策发布的即时跟踪与分析。用于自然语言处理、情感分析、主题建模等现代文本分析方法。
三、潜在应用场景
-
金融市场与舆情分析:研究者可通过标题与正文分析市场热点变迁、投资者情绪波动,也可结合发文时间研究新闻对股价、交易量等市场指标的即时与滞后影响;
-
政策影响与媒体传播研究:长期数据支持对国家经济政策发布后的媒体报道框架、舆论引导变化进行内容分析,也可用于研究不同报刊在重大财经事件中的报道立场与传播特征;
-
文本挖掘与计算方法验证:数据库规模大、覆盖领域集中,适合作为训练与测试财经领域文本分类、实体识别、摘要生成等自然语言处理模型的语料库,亦可支持计算社会科学相关方法的实证验证。
CnOpenData中国财经报刊新闻文本数据库基于公开来源系统整理而成,以持续、全面、结构化的方式汇聚中国主流财经新闻内容,兼具宏观时间跨度与微观文本信息,可为学术研究、行业分析、决策支持提供扎实的数据基础。
四、时间区间
|
报刊名称 |
起始日期 |
状态 |
截至20251119数据量 |
|---|---|---|---|
|
中国证券报 |
2005-01-05 |
实时更新 |
3197050 |
|
上海证券报 |
2006-04-22 |
实时更新 |
2328363 |
|
证券时报 |
2008-06-02 |
实时更新 |
2216215 |
|
人民日报 |
1946-05-15 |
实时更新 |
1980671 |
|
钱江晚报 |
2006-01-01 |
实时更新 |
711112 |
|
证券日报 |
2020-01-02 |
实时更新 |
625511 |
|
新闻晨报 |
2012-03-01 |
实时更新 |
321933 |
|
北京商报 |
2011-01-04 |
实时更新 |
295913 |
|
法制晚报 |
2021-01-01 |
实时更新 |
288547 |
|
参考消息 |
1957-03-01 |
实时更新 |
261948 |
|
长江商报 |
2010-05-24 |
实时更新 |
252900 |
|
羊城晚报 |
2018-01-01 |
实时更新 |
248768 |
|
北京青年报 |
2015-01-01 |
实时更新 |
235392 |
|
深圳商报 |
2017-03-01 |
实时更新 |
172757 |
|
经济参考报 |
2009-11-05 |
实时更新 |
167375 |
|
每日经济新闻 |
2008-01-18 |
实时更新 |
136476 |
|
广州日报 |
2021-01-01 |
实时更新 |
134808 |
|
经济观察报 |
2001-04-16 |
实时更新 |
134688 |
|
南方日报 |
2022-01-01 |
实时更新 |
130562 |
|
中华工商时报 |
2016-01-04 |
实时更新 |
108029 |
|
中国工业报 |
2014-01-06 |
实时更新 |
89672 |
|
南方都市报 |
2020-01-01 |
实时更新 |
89496 |
|
都市快报 |
2022-01-01 |
实时更新 |
89130 |
|
第一财经日报 |
2015-04-01 |
实时更新 |
83666 |
|
中国经济导报 |
2012-09-01 |
实时更新 |
76009 |
|
国际金融报 |
2014-08-04 |
实时更新 |
64698 |
|
信息时报 |
2022-08-30 |
实时更新 |
63913 |
|
中国消费者报 |
2010-01-01 |
实时更新 |
57621 |
|
中国财经报 |
2018-01-10 |
实时更新 |
42364 |
|
投资快报 |
2020-01-02 |
实时更新 |
37855 |
|
金陵晚报 |
2024-01-02 |
实时更新 |
18806 |
|
中国经营报 |
2022-01-03 |
实时更新 |
16473 |
|
中国经济周刊 |
2012-01-02 |
实时更新 |
13441 |
|
中国企业报 |
2011-04-01 |
实时更新 |
9554 |
|
中国贸易报 |
2011-01-04 |
实时更新 |
7281 |
|
21世纪经济报道 |
2025-01-03 |
实时更新 |
3325 |
|
重庆商报 |
2023-01-06 |
实时更新 |
2671 |
五、字段展示
|
中国财经新闻报纸文本数据字段表 |
|---|
|
站点中文名 |
|
发文时间 |
|
板块名称 |
|
首标题 |
|
标题 |
|
尾标题 |
|
作者 |
|
图片 |
|
正文 |
六、样本数据
|
站点中文名 |
发文时间 |
板块名称 |
首标题 |
标题 |
尾标题 |
作者 |
图片 |
正文 |
|---|---|---|---|---|---|---|---|---|
|
证券时报 |
2022/1/13 |
第A003版专栏 |
应防范证券服务业备案制的副作用 |
证券时报 |
[{'ha~:''}] |
【锦心绣口~处罚,…… | ||
|
证券时报 |
2022/1/13 |
第A004版聚焦资本市场“新地理” |
医疗器械产业培育难?“苏州现象”这样破题 |
证券时报 |
[{'ha~:''}] |
本版供图:~持发展…… | ||
|
证券时报 |
2022/1/13 |
第A008版公司 |
同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹 |
证券时报 |
[{'ha~:''}] |
图虫创意/~在接受…… | ||
|
证券时报 |
2022/1/13 |
第A001版头 版(今日116版) |
[报眼]星辉环材 |
证券时报 |
[{'ha~:''}] |
2022-~18.…… | ||
|
证券时报 |
2022/1/13 |
第A001版头 版(今日116版) |
同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹 |
证券时报 |
[{'ha~:''}] |
数据来源:~是闪送…… | ||
|
证券时报 |
2022/1/14 |
第A002版综合 |
鸿道投资执行董事、投资总监孙建冬: |
潮水退去看好电网设备投资机会 |
证券时报 |
[{'ha~:''}] |
证券时报记~限公司…… | |
|
证券日报 |
2020/1/2 |
B1金融机构 |
“南方优选成长”9年投资秘笈:在“富矿”中找好生意 |
王思文 |
[{'ha~:''}] |
“南方优选~,上证…… | ||
|
证券日报 |
2020/1/2 |
A1头版 |
2020年1月1日零点起中国487个省界收费站全部取消 |
证券日报 |
[{'ha~:''}] |
2020年~表示,…… | ||
|
证券日报 |
2020/1/3 |
B1金融机构 |
券商IPO承销业务“年末考”放榜:31家过会率100%招商证券“夺魁” |
王思文 |
[{'ha~:''}] |
券商IPO~在此背…… | ||
|
证券日报 |
2020/1/3 |
B2金融市场 |
中国通信工业协会区块链专委会常务副主任尚堃: |
“区块链+文化”具有广泛落地场景知识产权维权服务将具商业价值 |
邢萌 |
[{'ha~:''}] |
中国通信工~业内普…… |
七、相关文献
姜富伟、刘雨旻、孟令超,2024:《大语言模型、文本情绪与金融市场》,《管理世界》第8期。
范小云、王业东、王道平等,2022:《不同来源金融文本信息含量的异质性分析——基于混合式文本情绪测度方法》,《管理世界》第10期。
许雪晨、田侃,2021:《一种基于金融文本情感分析的股票指数预测新方法》,《数量经济技术经济研究》第12期。
张宗新、吴钊颖,2021:《媒体情绪传染与分析师乐观偏差——基于机器学习文本分析方法的经验证据》,《管理世界》第1期。
八、数据更新频率
实时更新
7117

被折叠的 条评论
为什么被折叠?



