Python爬虫-基于关键字品牌爬取京东商品完整信息(一)

京东爬取分为京东商品信息爬取及京东商品评论信息爬取,评论信息爬取参考:

京东商品评论爬虫

在写京东爬虫之前,笔者查看了很多博主的文章,发现很多所谓的京东商品爬取,只是把信息获取到,而没有去想是否完整,是否有动态加载的信息没有爬取到的内容?稳定性如何?当出现万条信息时会不会被ban掉,于是产生了自己手造轮子的想法,暂时以request实现,后续更新scrapy版本,如有问题,欢迎讨论批评
vx:476736794

一. 爬取流程

爬取流程

二.爬取商品品牌思路分析

京东爬虫中,评论的爬取有基于json的接口,但商品的爬取并未发现,于是按照初步思路进行基于xpath的爬取。
为了降低程序的耦合性,我们将程序基本分为三个模块:
第一个是geturl模块,即得到请求的url;
第二个是getresponse模块,即根据url及headers请求头,得到请求得到的response数据;
第三个是parse_html模块,即根据返回得到的response信息,进行解析;
然后通过main函数整体进行调用。
以搜索豆浆机为例,显示结果如下图:
首页
因为考虑到京东商品的最大显示页为100页,但可能存在商品的实际页数超过100页的情况,所以我们采取按品牌搜索商品,再遍历商品的方法,用红框标出来的即为品牌的名称。
但是在实际分析时却发现,当前页面上显示的只有到SKG
在这里插入图片描述
并未显示完全,当我们点击更多时,发现还有下面的品牌名
在这里插入图片描述
后半部分的数据怎么取得,通过在network中观察发现,后面部分品牌的信息为动态加载,当点击更多时,可以在network中找到响应的数据
在这里插入图片描述
于是我们得出了,如果想爬取每个品牌的链接下的商品,需要写两个不同的接口来请求获得响应,下面将详细介绍实现的方法。

三.爬取商品品牌的实现方法

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

精神抖擞王大鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值