
爬虫
文章平均质量分 73
RonnyChan
我们整个的生命,都催人泪下
展开
-
规范开始一个scrapy爬虫项目
【示例环境】系统 WIN10语言及版本 python3.6 安装好scrapy(装好python,在命令行中输入pip install scrapy)首先,我们要创建一个scrapy项目,打开命令提示符(win+R, 输入cmd回车),cd到你要创建项目的目录下,使用scrapy startproject <project_name>命令, 该参数表示你为项目起的名:(...原创 2018-08-12 22:34:34 · 668 阅读 · 0 评论 -
规范进行一个爬虫项目【经验分享:参考教学书籍,爬取books.toscrape.com上的书籍信息】
如何规范开始一个python爬虫?传送门:https://blog.youkuaiyun.com/GBA_Eagle/article/details/81611348教学书籍:《精通Scrapy网络爬虫》项目需求:爬取http://books.toscrape.com网站中的书籍信息。(1)信息包括:书名、价格、评价等级、产品编码、库存量、评价数量。(2)将爬取结果保存到csv文件中。...原创 2018-08-13 18:43:54 · 2945 阅读 · 0 评论 -
多线程获取代理IP
工作需要,在爬虫的时候要获取代理,但是一个代理接口获取的速度不满足需求,故用两个代理多线程进行获取,提高速度(有多的接口会更快)原理是两个接口同时运行,把得到的代理IP放入集合中,然后加入队列中,先进先出。每次入队之前判断是否已存在于集合中(即已经使用过,如果使用过则舍弃),保证每次使用的代理都是不重复的。 1、首先我们设置好队列以及集合,如果队列是空的(已透支),则睡眠2秒等待插入。...原创 2018-10-25 11:18:28 · 819 阅读 · 0 评论