
xie xie kan xi lie
weixin_43143740
这个作者很懒,什么都没留下…
展开
-
分布式爬虫和爬虫部署
今天学习了分布式爬虫和爬虫的部署,分布式爬虫也叫scrapy_redis,Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式,我们使用命令:pip3 install scrapy-redis来安装,Scrapy-redis提供了下面四种组件:Scheduler2.Duplication Filter3.I...原创 2019-06-19 09:07:18 · 944 阅读 · 0 评论 -
urllib库总结
开始复习爬虫,这里做了一个utllib和正则的小总结,了解一下就好在Python中有很多库可以用来抓取网页,urllib就是其中的一个库,就是用来抓取网页的,urllib有几个主要的模块------->request模块,它是urllib最基本的http请求模块,可以用来模拟发送请求,就像在浏览器中输入网址,然后敲击回车键一样,使用的时候只需要给库方法传入相关的URL和相关的参数即可....原创 2019-09-07 15:01:12 · 254 阅读 · 0 评论 -
爬虫正则总结
urllib说完,接下来说下正则,简单来说,我们在爬虫使用正则就是用提取数据的,我们使用正则里的规则在网页中匹配出我们想要的数据,它有许多规则,我们来说一下常用的几个首先是单字符匹配,. 匹配除了换行符之外的任意字符\d 匹配数字0-9 =>[0-9] => ^\D\D 匹配非数字\s 匹配空白字符(空格 \n \r \t)\S 匹配非空白字符\w 匹配单词字符[...原创 2019-09-07 15:12:13 · 138 阅读 · 0 评论 -
scrapy_redis分布式爬虫总结
1.我们为什么要用到分布式爬虫?Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式安装命令:pip3 install scrapy-redis2.scrapy-redis的四种组件Scrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)1.Schedu...原创 2019-09-21 16:08:20 · 275 阅读 · 0 评论 -
爬虫部署总结
安装相关库1,爬虫的部署需要用到scrapyd,scrapyd-client模块安装命令:pip3 install scrapyd,pip3 install scrapyd-client安装完成后用scrapyd-deploy -h命令来检验是否安装成功此外,还需要修改scrapy项目目录下的scrapy.cfg配置文件首先需要修改scrapyd.egg (项目的配置文件)[deplo...原创 2019-09-22 14:37:30 · 266 阅读 · 0 评论