1.2.爬虫流程以及案例演示

最新推荐文章于 2025-12-17 20:00:56 发布

原创最新推荐文章于 2025-12-17 20:00:56 发布 · 914 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #python #mysql #javascript #js

聚焦爬虫代码执行流程

流程说明

向起始地址发送请求，并获取响应
对响应结果进行数据提取
如果获取的数据是新的网站地址则继续发送请求并获取响应
如果获取的数据为页面需要的数据则完成数据保存

案例：斗鱼图片

目标

练习分析素材并提取素材地址的能力
手动下载素材

过程记录

斗鱼-颜值URL：颜值直播_颜值视频_斗鱼直播

分析出图片的URL：https://rpic.douyucdn.cn/live-cover/roomCover/2023/09/02/003a4fd060deae496bab910340b6a165_big.png

在一般的网站中，图片地址都是在html代码的img标签中的，例如百度图片。但是斗鱼网站进过分析之后我们发现，图片并不在html代码当中。像这种网站的资源都是动态加载过来的，所以需要善于利用浏览器开发者工具进行网络抓包。基于抓包我们发现当前图片等动态信息位于：https://www.douyu.com/wgapi/ordnc/live/web/room/yzList/1

当前api返回的数据为json数据，在json数据中包含了主播封面图片地址。

案例：抖音视频

要求：获取抖音原视频地址

分析地址：https://www.douyin.com/channel/300206

根据抓包分析出当前视频的api接口并返回json数据。在json数据中包含视频的播放地址，位于当前api的url_list节点。

案例：淘宝评论

要求：获取商家评论信息

分析地址：https://item.taobao.com/item.htm?spm=a21bo.jianhua.201876.10.5af92a89LhtPtE&id=620925796742&scm=1007.40986.276750.0&pvid=a2473adf-6c80-4e9d-a1e8-84c2253bbed9

根据浏览器抓包工具获取对应的评论api并获取响应的json数据。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。