一、操作步骤
今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下:


二、案例+操作步骤
- 采集规则:搜狐新闻正文采集
- 样本网址:http://www.sohu.com/a/227999170_123753?_f=index_chan08news_8&qq-pf-to=pcqq.temporaryc2c
- 采集内容:新闻标题、作者、时间、正文
第一步、打开网页
1.1,打开集搜客软件,输入网址然后敲Enter键,等网页加载出来后再点击右上角的“定义规则”按钮,可以看到有一个浮窗显示出来,这是工作台,下面定义规则就会输出在上面。
1.2,在工作台输入主题名,然后点击查重,如果提示被占用,就要换一个名字,保证主题名是唯一的。

第二步:标注信息
2.1,在浏览器窗口里用鼠标单击想要抓取的内容,这里是选中

本文详细介绍了如何使用Python爬虫抓取搜狐新闻的标题、作者、时间及正文内容。通过集搜客软件进行网页标注,创建规则,并通过测试和管理线索实现批量抓取。最后,将数据导出为Excel表格。
最低0.47元/天 解锁文章
8570

被折叠的 条评论
为什么被折叠?



