【python爬虫】一个简单的爬取百家号文章的小爬虫

最新推荐文章于 2023-12-23 14:37:01 发布

原创

最新推荐文章于 2023-12-23 14:37:01 发布 · 6.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#python

该博客讲述了如何使用Python爬虫从百度百家号中抓取‘老龄智能’相关文章的内容和信息。作者首先检查了robots.txt并选择了百家号作为数据源，因它的文章页面结构统一。通过分析网页元素，利用requests和BeautifulSoup库获取文章链接和内容。在爬取过程中，使用了两种不同的headers分别用于搜索页和文章页。文章内容包括标题、日期、来源和正文，并将数据保存到Excel文件中。博客最后给出了完整的爬虫代码示例，包括翻页和错误处理机制。

需求

用“老龄智能”在百度百家号中搜索文章，爬取文章内容和相关信息。

观察网页

红色框框的地方可以选择资讯来源，我这里选择的是百家号，因为百家号聚合了来自多个平台的新闻报道。首先看了一下robots.txt，基本上对爬虫没有什么限制。然后就去定位网页元素，我的思路是先把上图搜索页的每篇文章的链接爬取下来，然后放在list里循环访问获取内容，这里再提一下为什么选百家号，因为你获取不同文章的链接之后，百家号文章页面的网页结构都是一样的。
在这里插入图片描述
通过Chrome浏览器F12可以轻松定位到文章链接。但是还要考虑翻页的问题，一般没啥反爬的网站，都是通过url就可以实现翻页。

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=%E8%80%81%E9%BE%84%E6%99%BA%E8%83%BD&medium=2&x_bfe_rqs=20001&x_bfe_tjscore=0.000000&tngroupname=organic_news&newVideo=12&rsv_dl=news_b_pn&pn=20
https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=%E8%80%81%E9%BE%84%E6%99%BA%E8%83%BD&medium

最低0.47元/天解锁文章