第一次练手,仅做记录:
所需工具:
python3(pip要升级),wheel(使用pip安装),vs2015(vc++build tools也可以,要对应vs2015的版本),
lxml(下载本地后安装),twisted(同上),scrapy(pip安装),pyCharm(管理scrapy项目),mysql
爬取内容:搜索关键字为服装的所有商品,得到其标题,url,价格与评论总数
创建项目与爬虫文件的指令:scrapy startproject jingdong
cd jingdong //进入项目文件
scrapy genspider -t basic jd jd.com
打开项目后:
编写程序之前首先要修改setting文件中的一些配置,如图
其中USER_AGENT的内容来源如下图:(f12进入开发者模式后name栏没有内容的话就先刷新一下)
因为商品价格与评论数无法在页面源码中获得,所以需要通过浏览器抓包的方式获取,抓取方式如下图:
蓝线是价格信息,红线是评论总数信息,信息所在的url在上图的header栏中
编程构造网址时可以尝试将不需要的部分删减掉,使url更简洁一些
设计数据库时,价格字段最好制成字符型,因为可能会出现价格区间的表示形式。还要注意字符集,数据库与代码都设置成utf-8
爬取结果: