web scraper

本文介绍了傻瓜式爬虫工具web scraper的使用方法,包括基本使用步骤、如何进行翻页抓取和抓取二级页面信息。以抓取知乎大V的文章为例,详细阐述了从获取链接到进入详情页的完整过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

傻瓜式爬虫工具web scraper

image-20201116093530899

image-20201116093559383

1、 基本使用

举例:抓取知乎大V发布的文章

​ 我们想吧这些都抓取下来 地址:https://www.zhihu.com/people/zhangleo/posts

image-20201116093845058

image-20201116093924321

image-20201116094059169

image-20201116094133286

image-20201116094228974

image-20201116094312725

image-20201116094322223

image-20201116094546655

image-20201116094710263

image-20201116094847847

超链接公式=HYPERLINK(d2,“点击查看”)

2、翻页抓取方法

image-20201116095314538

#做翻页怎么做
# 其实特别简单 只需要改url就可以了
# 1.找到有规律的链接作为URL
知乎上总共有四页
https://www.zhihu.com/people/zhangleo/posts?page=[1-4:1]
https://www.zhihu.com/people/zhangleo/posts?page=2
    https://www.zhihu.com/people/zhangleo/posts?page=3
https://www.zhihu.com/people/zhangleo/posts?page=4
   # 后面的page也不一样
# 找到差值  就是页面间的数字相差 1

    

image-20201116095828562

https://www.zhihu.com/people/zhangleo/posts?page=[1-4:1]

image-20201116100026564

翻页url里写页数

3、抓取二级页面信息

image-20201116100925364

image-20201116100937152

image-20201116101004727

image-20201116101150326

这是第一步 选好了 点后抓取局部的 点击wwww任意地方

image-20201116101232242

image-20201116101319909

爬取二级页面的内容

image-20201116104132860

image-20201116104805250

制作翻页器

image-20201116105106653

这一页还是一样 url添加第一页的URL

image-20201116105250159

第一步要选择翻页数字link类型

第二部才选择内容部分

进入详情页的方法

第一步 首先按正常来获取链接地址(标题栏)

第二部 进入你刚才创建的链接下面 比如:links 点击灰色的地方

1.进入links 之后  不要点击Add New Selector 选项  因为我们要的数据在第二层上面  所以 
	先点击链接跳转到需要的页面 :::注意 如果页面 打开新的话  我们就需要Url复制 黏贴到刚才的项目中
2. 然后点击add new selecotr   选择自己需要的那些数组
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值