
爬虫
文章平均质量分 67
xiemanR
个人公众号:Python简史
展开
-
scrapy 爬豆瓣返回403错误的解决方法
用scrapy爬豆瓣的某些页面返回403错误:解决方法:在setting.py文件中增加USER_AGENT配置:USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'原创 2016-12-29 17:13:51 · 17147 阅读 · 7 评论 -
python使用selenium提取script节点的内容不成功的解决方法
使用selenium提示script节点的内容失败的二种解决方法。原创 2017-01-15 00:04:02 · 9930 阅读 · 1 评论 -
python 使用selenium+urllib爬取淘宝MM照片
本文介绍了如何爬取淘宝模特列表页的模特相册图片。由于相册的照片是动态生成的所以用到了selenium和chromedriver来加载页面。 模特相册地址的起始页是https://mm.taobao.com/json/request_top_list.htm?page=1。 爬取图片的思路如下: 1.从起始页开始先获取模特个人信息页链接;原创 2017-01-16 13:26:16 · 2870 阅读 · 0 评论