
网络爬虫
文章平均质量分 65
韩波的博客
知识使人快乐,学无止境!记录知识的奥妙,享受成功的快感!
展开
-
网络爬虫 - 10 深入理解Scrapy框架
深入理解Scrapy框架1、scrapy shellscrapy shell是一个scrapy的调试工具,用它来进行调试xpath,在scrapy shell中测试的是对的,到代码中肯定是对的。安装 pip install ipython使用方式:scrapy shell url在ipython中可以直接使用responseresponse.xpath() 得...原创 2018-08-29 14:48:36 · 425 阅读 · 0 评论 -
网络爬虫 - 9 自动识别验证码与初识Scrapy框架
自动识别验证码与初识Scrapy框架1、多线程优化2、登录古诗文登录:直接发送post,然后发送get 登录:先发送get,获取一下信息,然后再发送post,然后发送get 登录:get、post、get、get。 访问登录后的页面 验证码,下载到本地,手动输入3、自动识别验证码(1)光学识别 tesseract 指令识别...原创 2018-08-29 14:47:36 · 1797 阅读 · 0 评论 -
网络爬虫 - 7 requests的使用与selenium自动化测试工具
1.selenium+phantomjs(1)selenium概念: 是一个浏览器的自动化测试工具,通过selenium提供的一些方法可以去操作浏览器,让浏览器做 一些自动化的工作 (2)selenium操作谷歌浏览器: 主要核心:而是selenium操作谷歌浏览器驱动,通过驱动再来操作浏览器谷歌浏览器驱动下载地址 http://c...原创 2018-08-13 21:22:20 · 1055 阅读 · 0 评论 -
网络爬虫 - 6 JsonPath的使用方法与爬取案例
1、json数据解析(1)json概念:JSON 是存储和交换文本信息的语法。类似 XMLJSON 比 XML 更小、更快,更易解析JSON 是纯文本JSON 具有"自我描述性"(人类可读)JSON 具有层级结构(值中存在值)JSON 可通过 JavaScript 进行解析JSON 数据可使用 AJAX 进行传输(2)json应用场景前台 :由用户看到的界面称之...原创 2018-08-13 21:21:44 · 640 阅读 · 0 评论 -
网络爬虫 - 5 Xpath的使用方法与爬取案例
1.Xpath简介(1)xml概念: 被设计用来传输和存储数据,和json同处于一个位置,但是目前以json居多(2)xml和html的不同点: (a)xml用来传输数据,html用来显示数据 (b)xml的标签没有被预定义,html的标签是预定义好的 (c)xml具有自我描述性(3)常用的路径表达式:/ : 从根节点开始查找// : 从任意位...原创 2018-08-13 21:21:09 · 807 阅读 · 0 评论 -
网络爬虫 - 2 数据爬取的请求方式与解析
详情见代码 序号3-12 参见github:https://github.com/handabo/web-spider1、urllib.parse : 处理参数或者urlurllib.parse.quote(): url编码, (除了字母、数字、下划线、冒号 // ? =等)urllib.parse.unquote(): url解码, urllib.parse.urle...原创 2018-08-08 20:31:47 · 1601 阅读 · 0 评论 -
网络爬虫 - 1 网络爬虫基本概念和相关工具
网络爬虫基本概念和相关工具1.基本概念(1)什么是网络爬虫(web crawler)? 以前经常称之为网络蜘蛛(spider),是按照一定的规则自动浏览万维网并获取信息的机器人程序(或脚本),曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道,网页中除了供用户阅读的文字信息之外,还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。正因...原创 2018-08-08 20:30:51 · 2089 阅读 · 0 评论 -
网络爬虫 - 8 进程和线程的理解以及多线程爬虫
1.同步、异步,并行、并发之间的区别:(1)同步:先执行任务a,在执行任务b,称任务a和b是同步的: (2)异步:任务a和任务b同时执行,称任务a和b是异步的注意: 实现异步的时候,还有不同,一种是真正的异步,一种是伪异步 (3)并行:真正的异步 (4)并发:伪异步,通过计算机的快速切换,达到同时运行的假象 2.进程(1)电脑中的进程:启动一个软件之后就是一个进...原创 2018-08-14 19:07:48 · 1283 阅读 · 0 评论 -
网络爬虫 - 4 bs4的使用方法与爬取案例
1、bs4(1)bs4的概念: 是一个Python的第三方模块,用来解析html数据,其提供的api接口非常的人性化。(2)安装包: pip install bs4 pip install lxml 这个是一个解析器,用来将文档生成对象(3)如何切换: (a)指令切换, -i 源地址 只针对于这一次的指令安装生效 ...原创 2018-08-10 19:20:48 · 8060 阅读 · 1 评论 -
网络爬虫 - 3 IP代理的使用与正则匹配URL
1. 代理代理服务器有:快代理、西祠代理、芝麻代理、阿布云代理等(1)浏览器如何设置代理: 以谷歌浏览器为例: 打开设置–>高级–>打开代理设置–>局域网设置–>选择代理服务器(2)代码中如何设置代理:import urllib.requesturl = 'http://www.baidu.com/s?ie=UTF-8&wd=...原创 2018-08-10 18:58:50 · 1073 阅读 · 0 评论 -
网络爬虫 - 11 数据存储与分布式部署
数据存储与分布式爬取1、CrawlSpiderCrawlSpider是一个类,scrapy里面有好多的爬虫类,基类就是Spider,CrawlSpider也是一个爬虫类,是Spider的子类。CrawlSpider比Spider强大,强大在可以提取链接,通过一个对象的方法来提取链接,写一个规则提取符合规则的链接。 from scrapy.linkextractors i...原创 2018-08-29 14:49:17 · 452 阅读 · 0 评论