【云云怪】第6个项目:爬百度资讯

本文记录了一个使用Python爬虫爬取百度资讯的项目。作者在创作背景中提到,受老公启发,决定从今日头条转向百度资讯,以获取更有时效性的新闻。在过程分析中,详细阐述了选择资讯页面、考虑新闻时效性和质量,以及如何处理重复新闻的策略。最终,作者发现百度资讯的信息量虽大,但找到有价值新闻的难度比今日头条高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(先声明:创建这个项目的时候,百度的robots协议只禁止了taobao,所以我的爬虫是合法的。不过现在百度的robots又改了,所以这篇就不附上完整代码了)

【项目预览】

【创作背景】

学了爬虫之后,先捣鼓了一个爬今日头条的程序,然后我老公说,今日头条这种新晋暴发户太low了,百度才是中国互联网界的资深贵族,去做个爬百度新闻的程序吧。

【过程分析】

1,爬哪个网页?直接打开百度,输入关键词搜索,会进入“网页”。网页里面的信息太繁杂,有百科,有新闻,有广告,有贴吧,有音乐。。。实在不利于一只新闻爬虫工作。于是,我选择直接爬取“资讯”页面。

2,新闻的时效性:搜索新闻通常希望是有时效性的,比如我只想看1天以内的新闻。百度是咨询列出了新闻发布的时间,因此用datetime能够算出时效。

3,新闻的质量:在今日头条的项目里,我还做了个“评论数”筛选器,筛掉哪些很少评论(在我看来就意味着滥竽充数)的新闻,以获取高质量的精选新闻。但百度资讯没有很好的展示评论数,因此这个功能暂时只能放弃。

4,筛掉重复新闻:爬过一次才知道,百度搜出来的重复新闻太多太多,各家新闻网站一大抄,有的甚至名字都懒得换。我只能设置了一个“名字池”,每条新闻的名字先进“名字池”对比一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值