
爬虫
文章平均质量分 69
爬虫
life1024
hello
展开
-
爬虫,selenium问题汇总,driver.close,driver.quit(),新的tab
selenium中webdriver关闭浏览器有两个方法,一个是close,一个是quit,为了测试二者的区别,通过代码注释观察了一下区别观察了一下当webdriver.Chrome()时会产生以下进程当python调用chrome程序关闭后,chrome相关的进程也会关闭。使用driver.close()关闭时,若浏览器只打开一个tab,所以会关闭浏览器,chromedriver这个服务进程还存在,可以通过ps -ef|grep chrome查看到。原创 2022-11-24 18:03:35 · 376 阅读 · 0 评论 -
scrapy-redis 安装 及使用 结合例子解释
scrapy-redis安装及配置scrapy-redis 的安装pip install scrapy-rediseasy_install scrapy-redis下载http://redis.io/download版本推荐stable 3.0.2运行redisredis-server redis.conf清空缓存redis-cli flushdbs...原创 2018-11-03 18:01:29 · 7545 阅读 · 0 评论 -
scrapy-redis 和 scrapy-splash结合 做分布式渲染爬取
本人在scrapy-redis项目中的setting.py中配置,可时中有问题。但是可以使用以下方法:首先,你要确保安装了splash,并且已经启动(1)先安装scrapy-splash库:[python]view plaincopypipinstallscrapy-splash(2)然后将我们的Docker起起来[...原创 2018-11-03 18:00:50 · 4237 阅读 · 1 评论 -
scrapy-splash 爬虫渲染异步加载,ajax
首先给出splash官网地址:http://splash.readthedocs.io/en/stable/api.html#render-html1.安装和准备(1)先安装scrapy-splash库:pip install scrapy-splash(2)然后将我们的docker起起来docker run -p 80...原创 2018-11-03 18:01:00 · 6904 阅读 · 6 评论 -
scrapy 处理动态加载,使用phantomjs
前言:几种渲染js,ajax插件对比(1)selenium+webdriver(如firefox,chrome等)。这要求你系统有对应浏览器,并且过程中要全程开浏览器。说白了,就是你通过浏览器能看到啥,就能抓到啥。一般遇到特别复杂的验证码时,这个方法是有必要的,当然,开着浏览器爬虫的效率可想而知。(2)selenium+phantomjs。PhantomJS是一个WebKit,他的使用方法...原创 2018-11-03 18:01:09 · 7050 阅读 · 0 评论 -
爬虫 xpath的一些操作
xpath 中//表示当前节点下所有的,不仅仅是下级,还可能是下下级/表示当前节点的下级,仅仅是下级注意 类名、文本、属性等可能会带空格,比如:class="abc " <font title=" name">你好 </font>当对于一个dom有多个[]中括号括住条件的话,如一个包含类abc并且属于最后一个节点的选择:(//div[@class=...原创 2018-11-03 17:58:16 · 426 阅读 · 0 评论 -
PyCharm断点调试django,能看到变量值
我在用PyCharm开发django程序的时候,对于打印日志调试程序的方式感觉还是有点麻烦和不直观,所以研究了一下断点调试的方法如下:1、打开你的工程,在菜单栏里找到Run-->Edit Configurations2、在打开的对话框里边选择Python,点击+号4、选择Python5、出现了一个新的项Unnamed,你可以把它改名叫debug...原创 2018-01-10 18:22:30 · 4052 阅读 · 0 评论 -
浅谈HTTPS以及Fiddler抓取HTTPS协议
最近想尝试基于Fiddler的录制功能做一些接口的获取和处理工作,碰到的一个问题就是简单连接Fiddler只能抓取HTTP协议,关键的登录请求等HTTPS协议都没有捕捉到,所以想让Fiddler能够同时抓取到HTTPS和HTTP协议,设置只是很小的一步,关键是了解HTTPS协议的原理、Fiddler抓取HTTPS协议的原理,然后才能更好的理解如何进行设置。本文主要由三部分组成,第一部分用比较通俗形...原创 2018-11-14 11:37:33 · 478 阅读 · 0 评论 -
robots.txt SEO 与搜索引擎
懂一点SEO的人都知道,在SEO网站优化中robots.txt文件的编写直接影响网站优化的成果。正所谓,细节决定成败,robots.txt文件要怎么写?今天小刚seo就花一点时间,专门为大家献上史上最详细的robots文件的写法解析。一、为什么要写robots.txt文件,它的作用是什么?robots.txt是用来告诉搜索引擎网站上哪些内容可以被访问、哪些不能被访问原创 2017-07-06 13:12:00 · 832 阅读 · 0 评论 -
python 下载百度图片
百度图片是动态加载的,本例只是抓取了网页上的js源码,做的正则匹配#encoding=utf-8import urllib, urllib2import osimport reurl = r'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&f原创 2017-04-13 19:06:50 · 2159 阅读 · 1 评论 -
scrapy 设置爬取深度 (七)
通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。如图:原创 2016-11-03 17:14:14 · 8091 阅读 · 0 评论 -
Scrapy ——如何防止被ban 屏蔽 之策略大集合(六)
话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。关于scrapy的使用可参见之前文章:http://blog.youkuaiyun.com/u012150179/article/details/34913315http://blog.youkuaiyun.com/u012150179/article/detai原创 2016-11-03 17:12:51 · 3946 阅读 · 0 评论 -
scrapy自动多网页爬取CrawlSpider类(五)
一.目的。自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。二.热身。1.CrawlSpider(1)概念与作用:它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。(2)使原创 2016-11-03 17:07:54 · 6213 阅读 · 4 评论 -
Scrapy ——自动多网页爬取(抓取某人博客所有文章)(四)
首先创建project:[python]view plaincopyscrapystartproject优快云Blog一. items.py编写在这里为清晰说明,只提取文章名称和文章网址。[python]view plaincopy#原创 2016-11-03 17:04:02 · 1962 阅读 · 0 评论 -
Scrapy 核心架构 流程 (三)
一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:https://github.com/younghz/scrapy_doc_chs。源repo地址:https://github原创 2016-11-03 17:01:18 · 1245 阅读 · 0 评论 -
scrapy抓取 W3School (二)
1.前期基础准备。Oh,不能在准备了,直接来。(1)创建项目。输入:[python]view plaincopyscapystartprojectw3school以上创建项目w3school。这时会产生w3school文件夹,文件夹下文件如下:[pl原创 2016-11-03 16:59:50 · 998 阅读 · 0 评论 -
scrapy 爬虫 环境搭建入门(一)
Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加原创 2016-10-28 16:09:51 · 1609 阅读 · 0 评论 -
scrapy 爬取百度知道,多spider子一个项目中,使用一个pielines
爬取过程中 遇见 百度蜘蛛反爬 robot.txt,我们可以在scrapy 的setting.py 配置文件下配置ROBOTSTXT_OBEY = False最终代码# -*- coding: utf-8 -*-from scrapy.spider import Spiderfrom scrapy.contrib.spiders import CrawlSpider原创 2016-12-26 16:48:26 · 1204 阅读 · 0 评论 -
scrapy 结合 BeautifulSoup
创建Scrapy项目首先,利用命令scrapy startproject csdnSpider创建我们的爬虫项目;然后,在spiders目录下,创建优快云Spider.py文件,这是我们主程序所在文件,目录结构如下:定义Item找到并打开items.py文件,定义我们需要爬取的元素:[python]view plaincopy原创 2016-12-26 18:07:10 · 4085 阅读 · 0 评论 -
python爬虫相关 官网及文档地址
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#topics-settings-ref srcpy中文文档https://github.com/rolando/scrapy-redis原创 2017-01-03 11:24:08 · 1683 阅读 · 0 评论 -
pycharm 下调试 scrapy
(1) 用pycharm导入scrapy项目(2)选择自己编写的scrapy,run一下(3)点击菜单栏的run ,选择Edit Configurations。(4)选择运行的spider文件(5)在右侧script 输入你的cmdline.py 的地址,本人是 /usr/lib64/python2.7/site-packages/scrapy/cmdline.py。script原创 2016-12-27 09:25:57 · 4954 阅读 · 0 评论 -
scrapy-redis 分布式爬取源码分析
scrapy是Python的一个非常好用的爬虫库,功能非常强大,但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来,人多力量大。而scrapy-Redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。scra原创 2017-01-03 11:17:27 · 5863 阅读 · 0 评论 -
爬虫系列教程
以下为Python2爬虫系列教程:大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。Python版本:2.7一、爬虫入门1.Python爬虫入门一之综述2.Python爬虫入门二...原创 2018-11-03 17:59:56 · 1253 阅读 · 0 评论 -
scrapy 下载并保存图片
自定义一个pipeline# 图片下载类class ImageDownloadPipeline(object): def process_item(self, item, spider): global img_index #if 'image_urls' in item: # 如何‘图片地址’在项目中 imgPat原创 2017-04-13 19:03:16 · 3466 阅读 · 0 评论 -
scrapy 编写扩展 (八)
在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。1.第一种这种原创 2016-11-03 17:20:43 · 1353 阅读 · 0 评论