1.2.爬虫流程以及案例演示

聚焦爬虫代码执行流程

流程说明

  1. 向起始地址发送请求,并获取响应
  2. 对响应结果进行数据提取
  3. 如果获取的数据是新的网站地址则继续发送请求并获取响应
  4. 如果获取的数据为页面需要的数据则完成数据保存

案例:斗鱼图片

目标

  • 练习分析素材并提取素材地址的能力
  • 手动下载素材

过程记录

斗鱼-颜值URL颜值直播_颜值视频_斗鱼直播

分析出图片的URLhttps://rpic.douyucdn.cn/live-cover/roomCover/2023/09/02/003a4fd060deae496bab910340b6a165_big.png

在一般的网站中,图片地址都是在html代码的img标签中的,例如百度图片。但是斗鱼网站进过分析之后我们发现,图片并不在html代码当中。像这种网站的资源都是动态加载过来的,所以需要善于利用浏览器开发者工具进行网络抓包。基于抓包我们发现当前图片等动态信息位于:https://www.douyu.com/wgapi/ordnc/live/web/room/yzList/1

当前api返回的数据为json数据,在json数据中包含了主播封面图片地址。

案例:抖音视频

要求:获取抖音原视频地址

分析地址:https://www.douyin.com/channel/300206

根据抓包分析出当前视频的api接口并返回json数据。在json数据中包含视频的播放地址,位于当前apiurl_list节点。

案例:淘宝评论

要求:获取商家评论信息

分析地址:https://item.taobao.com/item.htm?spm=a21bo.jianhua.201876.10.5af92a89LhtPtE&id=620925796742&scm=1007.40986.276750.0&pvid=a2473adf-6c80-4e9d-a1e8-84c2253bbed9

根据浏览器抓包工具获取对应的评论api并获取响应的json数据。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值