python爬虫实战-如何批量爬取唯品会商品信息＞＞＞

最新推荐文章于 2024-04-11 09:18:41 发布

原创

最新推荐文章于 2024-04-11 09:18:41 发布 · 3.5k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了如何使用Python爬虫批量抓取唯品会商品信息。通过分析网站动态Ajax技术，找到商品接口，利用关键词和页码获取商品PID，请求商品详情JSON数据，并将其保存到本地。详细步骤包括：确定接口、抓取PID、请求商品信息和数据保存。

第一步、打开唯品会网站 https://www.vip.com。然后随意搜索一种商品，比如"键盘",搜索之后下拉发现页面URL没有发生改变，但是商品信息在不断加载，那么这就是动态Ajax技术，遇到这种情况，第一反应就是找接口。

第二步、打开开发者工具，鼠标右键，点击检查，切换到Network选项卡，然后刷新唯品会页面，进行抓包，然后查看每个包的pirview，发现商品信息在‘ v2?callback=getMerchandise’中，我们来看一下URL,不看不要紧，一看吓一跳-_-,这URL也太长了，研究一下参数，发现主要是每件商品都有自己的pid,那么接下来，只要我们找到商品的pid就可以抓取数据了。

继续在Network抓到的包中查看每个包的priview，最终在‘rank?callback=getMerchandis’中找到了商品的pid。接下来就好办了，先切换到headers,查看url参数,在唯品会页面翻页，发现改变的只有pageOffset，每次翻页pageOffset增加120，那么每页的商品有120件，而且如果换一件商品进行搜索，只有keyword改变，了解了这一点，我们就可以实现搜索商品关键词然后得到对应的商品信息，并且可以进行翻页。

第三步、获取商品的pid。访问‘rank?callback=getMerchandis’中的URL，参数keyword，和pageOffset可以进行修改，以达到自己想要的信息，然后请求HTML页面，记得加上请求头。在‘rank?callback=getMerchandis’包中的 priview中可以得知，该页面返回的是json数据，而且是不合法的json那么就要将不合法的json，那么就要将不合法的json转换成字典，方便取出pid，直接上代码。



keyword = input('请输入想要查询的商品关键词>>>')
pagenum = int(input('请输入页数,每页120个商品>>>'))
for i in range(0,pagenum):
   url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getMerchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101108&client=pc&mobile_platform=1&province_id=10