需求
用“老龄智能”在百度百家号中搜索文章,爬取文章内容和相关信息。
观察网页

红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道。首先看了一下robots.txt,基本上对爬虫没有什么限制。然后就去定位网页元素,我的思路是先把上图搜索页的每篇文章的链接爬取下来,然后放在list里循环访问获取内容,这里再提一下为什么选百家号,因为你获取不同文章的链接之后,百家号文章页面的网页结构都是一样的。

通过Chrome浏览器F12可以轻松定位到文章链接。但是还要考虑翻页的问题,一般没啥反爬的网站,都是通过url就可以实现翻页。
https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=%E8%80%81%E9%BE%84%E6%99%BA%E8%83%BD&medium=2&x_bfe_rqs=20001&x_bfe_tjscore=0.000000&tngroupname=organic_news&newVideo=12&rsv_dl=news_b_pn&pn=20
https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=%E8%80%81%E9%BE%84%E6%99%BA%E8%83%BD&medium

该博客讲述了如何使用Python爬虫从百度百家号中抓取‘老龄智能’相关文章的内容和信息。作者首先检查了robots.txt并选择了百家号作为数据源,因它的文章页面结构统一。通过分析网页元素,利用requests和BeautifulSoup库获取文章链接和内容。在爬取过程中,使用了两种不同的headers分别用于搜索页和文章页。文章内容包括标题、日期、来源和正文,并将数据保存到Excel文件中。博客最后给出了完整的爬虫代码示例,包括翻页和错误处理机制。
最低0.47元/天 解锁文章
1387

被折叠的 条评论
为什么被折叠?



