不同网站和页面爬虫知识点

玉米米的后花园

于 2019-07-25 16:39:33 发布

阅读量719

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39967296/article/details/97269858

版权

本文介绍了Python爬虫中处理动态加载页面的策略，包括解析Ajax翻页、构造URL以及应对下拉加载的内容。同时，讨论了GET和POST请求的区别，以及如何处理需要登录验证的网站。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、json.loads()解码python json格式
json.load()加载python json格式文件
因此使用requests.get(url)和urllib.urlopen(url)获取内容的方式如下：
在这里插入图片描述
2、关于爬取Ajax动态加载（翻页时url不变）的网页+网站
（1）中国票房网，周票房，无论选取哪一周，网址均为http://www.cbooo.cn/movieweek
对于该类网站，需要找出隐藏的真实网址。
XHR：XMLHttpRequest
图中Request URL 即为真实网址，设置不同的sdate参数即可获取不同周的数据。
在这里插入图片描述
（2）对于网页中含有下一页的网页数据爬取
一般下一页的url会变化，找出规律构造url即可。爬取多少页就构造几个url,若需要爬取到最后一页，需要设置停止参数，只需观察最后一页和不是最后一页参数的差异找出最后一页的参数。
以淘宝为例，Elements视图下定位第99页和第100页的代码，可以发现参数不一致。

在这里插入图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。