
爬虫
文章平均质量分 89
简单就好VIP
你相信什么,命运就会是什么!加油吧 !!!
展开
-
爬虫-- 分布式 Erlang 、RabbitMQ 和Celery 的安装
分布式:多台服务器处理一个任务分布式爬虫使用Celery + RabbitMQ 实现,而且 RabbitMQ 是基于Erlang 安装的一、安装erlang rabbitmq(1)windows下安装1、先安装erlang otp_win64_21.1 直接默认路径,不要更改路径,一直next就行 再安装rabbitmq 安装完之后,在管理员权限运...原创 2018-10-30 20:07:49 · 536 阅读 · 0 评论 -
Python爬虫---数据的提取和清洗的正则应用规则
最近在做一个项目,爬虫获取的数据可谓一锅粥,果断选择了正则表达式,下面是常用的规则:表达式全集字符 描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multili...转载 2018-11-05 13:18:50 · 828 阅读 · 0 评论 -
scrapy-redis去重优化(Scrapy+Redis+Bloomfilter)附Demo福利
背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了,再加上一千多万条requests的种子,redis占用了一百六十多G的内存(服务器,Centos7),总共才...转载 2018-11-13 22:38:44 · 3843 阅读 · 0 评论 -
XPath笔记 --留存
常用的 :①、/节点1/节点2.../节点n :获取这个全路径下所有名字为 节点n的节点,返回一个集合②、child::book :选取所有属于当前节点的子元素的 book 节点 RT,学习一篇博客所做的笔记,留做存根参考原文:https://blog.youkuaiyun.com/hemeinvyiqiluoben/article/details/48915845 ...转载 2018-11-15 16:29:38 · 385 阅读 · 1 评论