【云云怪】第6个项目：爬百度资讯

云云怪

于 2021-05-24 12:29:53 发布

阅读量404

点赞数 1

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_57719910/article/details/117221157

版权

本文记录了一个使用Python爬虫爬取百度资讯的项目。作者在创作背景中提到，受老公启发，决定从今日头条转向百度资讯，以获取更有时效性的新闻。在过程分析中，详细阐述了选择资讯页面、考虑新闻时效性和质量，以及如何处理重复新闻的策略。最终，作者发现百度资讯的信息量虽大，但找到有价值新闻的难度比今日头条高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（先声明：创建这个项目的时候，百度的robots协议只禁止了taobao，所以我的爬虫是合法的。不过现在百度的robots又改了，所以这篇就不附上完整代码了）

【项目预览】

【创作背景】

学了爬虫之后，先捣鼓了一个爬今日头条的程序，然后我老公说，今日头条这种新晋暴发户太low了，百度才是中国互联网界的资深贵族，去做个爬百度新闻的程序吧。

【过程分析】

1，爬哪个网页？直接打开百度，输入关键词搜索，会进入“网页”。网页里面的信息太繁杂，有百科，有新闻，有广告，有贴吧，有音乐。。。实在不利于一只新闻爬虫工作。于是，我选择直接爬取“资讯”页面。

2，新闻的时效性：搜索新闻通常希望是有时效性的，比如我只想看1天以内的新闻。百度是咨询列出了新闻发布的时间，因此用datetime能够算出时效。

3，新闻的质量：在今日头条的项目里，我还做了个“评论数”筛选器，筛掉哪些很少评论（在我看来就意味着滥竽充数）的新闻，以获取高质量的精选新闻。但百度资讯没有很好的展示评论数，因此这个功能暂时只能放弃。

4，筛掉重复新闻：爬过一次才知道，百度搜出来的重复新闻太多太多，各家新闻网站一大抄，有的甚至名字都懒得换。我只能设置了一个“名字池”，每条新闻的名字先进“名字池”对比一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。