京东商城爬虫程序

最新推荐文章于 2025-06-24 11:37:10 发布

shx13114580971

最新推荐文章于 2025-06-24 11:37:10 发布

阅读量621

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫 python

本文链接：https://blog.youkuaiyun.com/shx13114580971/article/details/70622948

python 同时被 2 个专栏收录

3 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

第一次练手，仅做记录：

所需工具：

python3（pip要升级），wheel(使用pip安装)，vs2015（vc++build tools也可以，要对应vs2015的版本），

lxml（下载本地后安装），twisted（同上），scrapy（pip安装），pyCharm（管理scrapy项目）,mysql

爬取内容：搜索关键字为服装的所有商品，得到其标题，url，价格与评论总数

创建项目与爬虫文件的指令：scrapy startproject jingdong

cd jingdong //进入项目文件

scrapy genspider -t basic jd jd.com

打开项目后：

编写程序之前首先要修改setting文件中的一些配置，如图

其中USER_AGENT的内容来源如下图：（f12进入开发者模式后name栏没有内容的话就先刷新一下）

import scrapy from scrapy.http import Request #用于进入所指网页与调用回掉函数 import re #正则 from jingdong.items import JingdongItem import urllib.request #读取网页内容（此处主要用于读取浏览器抓包信息） class JdSpider(scrapy.Spider): name = "jd" allowed_domains = ["jd.com"] start_urls = ['http://www.jd.com/'] #注意加上主机名，此处是www. def parse(self, response): key="服装" for i in range(2): pageurl="https://search.jd.com/Search?keyword="+key+"&enc=utf-8&page="+str(2*i+1) #获取每页商品的url，url中的页码为2*i+1 yield Request(url=pageurl,callback=self.page) #返回Request函数，进入目标网页并调用page函数 def page(self,response): pageid=response.xpath("//li[@class='gl-item']/@data-sku").extract() #获取每件商品的id for i in range(len(pageid)): #依次循环，构建每件商品的url url="https://item.jd.com/"+pageid[i]+".html" yield Request(url=url,callback=self.next) def next(self,response): item=JingdongItem() item["title"]=response.xpath("//title/text()").extract() #获取商品标题并存入容器 item["link"]=response.url #获取商品链接并存入容器

因为商品价格与评论数无法在页面源码中获得，所以需要通过浏览器抓包的方式获取，抓取方式如下图：

蓝线是价格信息，红线是评论总数信息，信息所在的url在上图的header栏中

编程构造网址时可以尝试将不需要的部分删减掉，使url更简洁一些

#因为商品价格与评论数无法在页面源码中获得，所以需要通过浏览器抓包的方式获取 patid="com/(.*?).html" #构建此商品当前页面id的正则表达式 thisid=re.compile(patid).findall(response.url)[0] #获取id priceurl="https://p.3.cn/prices/mgets?skuIds=J_"+str(thisid) #构造价格信息所在的网址 commenturl="https://club.jd.com/comment/productCommentSummaries.action?referenceIds="+str(thisid) pricedata=urllib.request.urlopen(priceurl).read().decode("utf-8") #获取价格数据 commentdata=urllib.request.urlopen(commenturl).read().decode("utf-8") #通过正则表达式将得到的价格与评论数信息中的有用部分提取出来 patprice='"p":"(.*?)"' patcomment='"CommentCount":(.*?),"AverageScore"' item["price"]=re.compile(patprice).findall(pricedata)[0] item["comment"]=re.compile(patcomment).findall(commentdata)[0] yield item #返回容器对象 pass

设计数据库时，价格字段最好制成字符型，因为可能会出现价格区间的表示形式。还要注意字符集，数据库与代码都设置成utf-8

import pymysql class JingdongPipeline(object): def __init__(self): self.conn=pymysql.connect(host="localhost",user="root",password="wan13114580971",db="test",charset="utf8") def process_item(self, item, spider): try: title=item["title"][0] link=item["link"] price=item["price"] comment=item["comment"] sql="insert into taob (title,link,price,comment) values('"+title+"','"+link+"','"+price+"',"+comment+")" self.conn.query(sql) self.conn.commit() return item except Exception as err: pass def close_spider(self):

爬取结果：