
Scrapy
文章平均质量分 62
EUNC
IT搬砖大师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
安装tesserocr的报错RuntimeError: Failed to init API, possibly an invalid tessdata path解决办法
前置环境 windows 10 操作系统 tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe 安装路径在C:\Program Files\Tesseract-OCR tesserocr-2.4.0-cp37-cp37m-win_amd64.whl 安装方法:pip install ./tesserocr-2.4.0-cp37-cp37...原创 2020-01-07 20:29:16 · 4989 阅读 · 2 评论 -
Scrapy爬取页面错误原因汇总
url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0] print(url) yield scrapy.Request(url, callback=self.parse) 如上图代码,scrapy 爬虫过程中,在实现翻页时,偶然遇见如下报错: Missin...原创 2018-11-01 00:58:30 · 3107 阅读 · 0 评论 -
Scrapy数据流的工作流程
Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的: 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。 5、一旦下载器完成页面下载,将下载结果返回给爬虫引擎。 6、引擎将下载器的响应通过中间件返回给爬虫进行处理。 7、爬虫处理响应,并...原创 2018-11-02 10:48:22 · 1943 阅读 · 0 评论 -
python爬虫——多线程+协程(threading+gevent)
以下摘自这篇文章:https://blog.youkuaiyun.com/qq_23926575/article/details/76375337 在爬虫中广泛运用的多线程+协程的解决方案,亲测可提高效率至少十倍以上。 本文既然提到了线程和协程,我觉得有必要在此对进程、线程、协程做一个简单的对比,了解这三个程之间的区别。 以下摘自这篇文章:http://www.cnblogs.com/guokaixin/p/...转载 2018-11-03 00:55:41 · 1121 阅读 · 0 评论 -
Scrapy 导出数据 cvs, json
scrapy crawl douban_spider -o jData.json scrapy crawl douban_spider -o cData.csv settings中: 优先级数越小, 表示优先级高原创 2018-12-07 21:28:53 · 3191 阅读 · 0 评论 -
爬虫基础回顾
1、基础知识 1.1 http的过程 先是在对应的浏览器里面输入url,通过浏览器来发送请求到目标服务器(url指向的服务器),目标服务会根据请求,发送回响应给浏览器,浏览器对相应进行解析。 1.1.1 请求 (1)请求方式:get()/post() (2)请求url:url有参数,一般是在‘?’后面的是参数,有多个参数的话,通过‘&’连接起来 (3)请求头:User-Agen...原创 2018-12-07 21:42:37 · 3214 阅读 · 0 评论