目标:获取淘宝搜索页面信息,爬取商品的名称和价格
方法:淘宝的搜索接口
翻页处理
库:requests
对比网址:
起始页 | |
第二页 | s=44 |
第三页 | s=88 |
得到 第n页是s=(n-1)*44
淘宝网站的robots协议(一般网站的robots协议约定放在网站的主目录下的/robots.txt中)
可以看出爬虫不得对淘宝的搜索页面进行爬取(爬取速度就像人类的速度则是允许的)
User-agent | 用户(叫爬虫种类或者名称) |
Allow | 允许爬取的目录 |
Disallow | 不允许爬取的目录 |
程序结构:
1.提交商品搜索请求,循环获得页面
2.从每个页面中提取商品的名称和价格信息
3.打印输出
以搜索鞋为例:
结论:raw_title和view_price分别对应名称和价格
代码: