
Scrapy
文章平均质量分 72
笨笨robot
一个迷途折返的loser
展开
-
学习随笔 Scrapy项目抓取天气预报
关于XPath和CSSpath路径选取可以用打开浏览器F12选中元素点击鼠标右键选取。原创 2018-05-26 16:11:10 · 345 阅读 · 0 评论 -
学习随便 Scrapy中间件添加proxy
Scrapy默认环境下,proxy的设置是由中间件scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware控制的,添加代理与之前的添加UserAgent不同,添加UserAgent是继承重写UserAgentMiddleware,需要禁止系统的UserAgentMiddleware,而现在添加代理只是需要在系统的HttpPr...原创 2018-05-29 15:56:27 · 1778 阅读 · 0 评论 -
scrapy输出csv文件数据多空行问题解决
使用scrapy命令行将数据保存为csv文件时,发现csv多空行。百度https://stackoverflow.com/questions/39477662/scrapy-csv-file-has-uniform-empty-rows/43394566#43394566查看源码scrapy.exporters.CsvItemExporter,在io.TextIOWrapper加入参数newlin...原创 2018-07-04 09:54:25 · 1765 阅读 · 2 评论 -
Scrapy对接Selenium并模拟登陆
最近查看了之前跟着崔庆才老师的《Python3网络爬虫开发实战》写的代码,第13章使用Scrapy对接Selenium中间件去爬取淘宝商品详情的爬虫不能用了,之前文章如下https://cloud.tencent.com/developer/article/1151835。现在的主要问题是:淘宝加强了反爬虫机制(登陆验证),即搜索商品需要登录。 新版selenium对phantomjs不...原创 2019-04-19 15:43:07 · 1386 阅读 · 2 评论