京东商城爬虫程序


第一次练手,仅做记录:

所需工具:

python3(pip要升级),wheel(使用pip安装),vs2015(vc++build tools也可以,要对应vs2015的版本),

lxml(下载本地后安装),twisted(同上),scrapy(pip安装),pyCharm(管理scrapy项目),mysql


爬取内容:搜索关键字为服装的所有商品,得到其标题,url,价格与评论总数


创建项目与爬虫文件的指令:scrapy startproject jingdong          

                                              cd jingdong //进入项目文件

                                              scrapy genspider -t basic jd jd.com


打开项目后:


编写程序之前首先要修改setting文件中的一些配置,如图




其中USER_AGENT的内容来源如下图:(f12进入开发者模式后name栏没有内容的话就先刷新一下)



 

因为商品价格与评论数无法在页面源码中获得,所以需要通过浏览器抓包的方式获取,抓取方式如下图:



蓝线是价格信息,红线是评论总数信息,信息所在的url在上图的header栏中


编程构造网址时可以尝试将不需要的部分删减掉,使url更简洁一些



设计数据库时,价格字段最好制成字符型,因为可能会出现价格区间的表示形式。还要注意字符集,数据库与代码都设置成utf-8





爬取结果:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值