本人的微信公众号是"爱学习的妮妮qiang",欢迎订阅~
1. 背景
这段时间项目比较忙,所以本qiang~有些耽误了学习,不过也算是百忙之中,抽取时间来支撑一个读者的需求,即爬取一些财经网站的新闻并自动聚合。
该读者看了之前的《AI资讯的自动聚合及报告生成》文章后,想要将这一套流程嵌套在财经领域,因此满打满算耗费了2-3天时间,来完成了该需求。
注意:爬虫不是本人的强项,只是一丢丢兴趣而已; 其次,本篇文章主要是用于个人学习,客官们请勿直接商业使用。
2. 面临的难点
1. 爬虫框架选取: 采用之前现学现用的crawl4ai作为基础框架,使用其高阶技能来逼近模拟人访问浏览器,因为网站都存在反爬机制,如鉴权、cookie等;
2. 外网新闻: 需要科学上网;
3. 新闻内容解析: 此处耗费的工作量最多,并不是html的页面解析有多难,主要是动态页面加载如何集成crawl4ai来实现,且每个新闻网站五花八门。
3. 数据源
| 数据源 |
url |
备注 |
| 财lian社 |
1000: 头条, 1003: A股, 1007: 环球 |
|
| 凤huang网 |
||
| 新lang |
2519: 财经 2672: 美股 |

最低0.47元/天 解锁文章
1212

被折叠的 条评论
为什么被折叠?



