scrapy爬取京东商城某一类商品的信息和评论(一)

本文介绍了如何使用scrapy爬取京东商城电子烟类目下的商品信息,包括商品ID、链接、名称、店铺等。由于部分信息如价格、评论数是动态加载的,需要分析网络请求获取。通过解析特定的script文件,获取到评论数,并通过http://club.jd.com/clubservice.aspx接口获取评论详细信息。同样,通过分析价格加载的js文件,获取商品价格。所有数据最终存储在数据库中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

刚写完京东爬虫,趁着记忆还深刻,写点总结吧。


一、前提


默认已用scrapy爬取过网站,有爬虫基础,有爬虫环境


二、以爬取电子烟为例


1、任务一:爬取商品信息


在搜索框里面直接搜索电子烟,搜出来的界面,你会发现它是动态加载的。即一开始源代码里面只能看到30条商品的信息,随着你的下拉,另外30条才会加载出来。因此爬取起来比较麻烦。后来发现,从京东左边的商品分类中找到电子烟这一分类




此时的搜索到的电子烟分类的展示网页是一开始就已加载了全部60条商品信息的。商品信息准备从这一页入手。


有爬虫基础的很快就能知道下一步要怎么做了,首先我们需要获得每个商品的信息和链接,称搜索出来的展示页面为搜索页面,进入到商品的详情页面为详情页面。


(1)我们先从搜索页的处理开始




通过抽取<li class="gl-item"> 标签,很快能得到商品的信息。

从搜索页面能抓取到商品的ID,详情页链接,商品名字,店铺名字这些信息。而价钱是动态加载的,注意千万不要被检查(就是chrome通过右键点击检查看到的代码)误解。爬虫爬到的是源代码,检查看到的代码和源代码的代码是不一样的。以源代码为主。


这是检查看到的代码




这是源代码看到的代码



不信可以用爬虫爬取网页试试。所以确定价钱通过网页爬取不到ÿ

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值