
python之最帅爬虫
从入门到入狱,哈哈哈哈
向着朝阳,我走过冬夜寒冬
这个作者很懒,什么都没留下…
展开
-
最帅爬虫_scrapy框架中间件的使用
目录一,中间件的概念二,案例2.1 案例(豆瓣读书)一,中间件的概念中间件是 Scrapy 里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请 求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。在 Scrapy 框架中有 两种中间件:爬虫中间件和下载中间件。一个框架图重点关注数据的流转—每个组件进出的数据都是怎么流通。对于爬虫而言其实数据主要:url-----在scrapy框架里面将来会封装成一个request对象item—提取出来的数据有两个中间件:功能是由经过他原创 2020-06-03 19:59:39 · 305 阅读 · 0 评论 -
最帅爬虫_scrapy框架安装与入门
目录一,简介二,安装三,入门一,简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。scrapy框架的请求流程:ScrapyEngine(引原创 2020-06-02 22:20:30 · 195 阅读 · 0 评论 -
最帅爬虫_破解安居客base64加密
目录一、实现逻辑二、代码一、实现逻辑网址: https://bj.zu.anjuke.com/二、代码import re,ioimport time,base64from fontTools.ttLib import TTFontimport requestsfrom lxml import etreedef base64_decode(page_content): """ 对base64加密的页面内容进行解密 """ # 1、提取出字体文原创 2020-05-25 21:26:15 · 1052 阅读 · 1 评论 -
最帅爬虫_破解有道翻译CSS加密文件
目录一、爬取逻辑二、代码实现一、爬取逻辑基础路径:http://fanyi.youdao.com/基于XHR文件判断这是ajax请求方式二、代码实现import randomimport time,hashlibimport requestsdef get_md5(value): return hashlib.md5(bytes(value,encoding='utf-8')).hexdigest()def fanyi(kw): ''' 翻译单原创 2020-05-24 21:17:41 · 197 阅读 · 0 评论 -
最帅爬虫_滑动验证码解决案例
目录一、豆瓣网爬取逻辑二、代码实现一、豆瓣网爬取逻辑创建webdriver.Chrome对象,并请求登录的url (driver对象提升为全局变量到main方法当中)页面加载等待(20)秒输入账号与(错误的密码),多次登录,使其弹出验证码判断验证码是否弹出5. 如果弹出就解决5.1 点住滑块,悬浮5.2 找到滑块距离5.3 点住滑块,移动滑块距离5.4 点住滑块,到指定位置后,松开滑块6. 判断登录后标签的状态是否改变,改变就代表登录成功二、代码实现import time原创 2020-05-23 14:55:05 · 1278 阅读 · 4 评论 -
最帅爬虫_打码平台
目录一、超级鹰平台二、案例一、超级鹰平台所谓的打码平台,,它的作用就是在我们爬虫过程中,解决验证码校验的一个工具。这个工具可以自动识别验证码图片,并返回验证码图片的内容http://www.chaojiying.com/1.注册2.查看API二、案例只需要通过传入所需要的参数,即可解析返回验证码图片内容import requestsimport base64#http://my.cnki.net/Register/CheckCode.aspxdef verify_code(i原创 2020-05-21 22:32:29 · 483 阅读 · 0 评论 -
最帅爬虫_Selenium 手动打码
目录一、验证码问题1.1 验证码出现位置1.2 验证码分类二、selenium手动打码一、验证码问题1.1 验证码出现位置登录界面登录界面没有验证码(特别网站),只有输错了多次情况下才会出现,只要输入一次,又很少出现了。查询数据的时候,查询按钮之前要输入。当我们爬一个网站,爬到一般出现验证码-----以滑动验证码居多1.2 验证码分类图片验证码–普通验证码知网图片验证码:http://my.cnki.net/elibregister/CheckCode.aspx滑原创 2020-05-20 23:27:24 · 943 阅读 · 1 评论 -
最帅爬虫_斗鱼 selenium 翻页
网址: https://www.douyu.com/g_LOL需求:获取所有在线直播的房间信息代码实现:import timefrom lxml import etreefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom seleni原创 2020-05-19 23:20:54 · 486 阅读 · 0 评论 -
最帅爬虫_豆瓣读书(加密数据获取)
网址: http://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0需求: 获取所有 python 书籍的信息代码实现:from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWait # 等待对象from selenium.webdriver.support import ex原创 2020-05-19 23:16:54 · 904 阅读 · 2 评论 -
最帅爬虫_Selenium 数据获取
目录一、什么是Selenium二、什么是PhantomJS三、百度 (Selenium+Phantom 快速入门)一、什么是SeleniumSelenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,类型像 我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同的是 Selenium 可以直接运行 在浏览器上,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面 截屏,或者判原创 2020-05-19 23:10:48 · 317 阅读 · 0 评论 -
最帅爬虫_Ajax数据获取
目录一,什么是Ajax二,Ajax请求的分析方法Ajax 请求的分析步骤可以总结为三步:1、分析请求2、分析响应3、解析响应内容三,案例(豆瓣电影网信息的爬取)一,什么是Ajax我们与网站服务器通信的唯一方式,就是发出 http 请求获取新页面。如果提交表单之 后,或从服务器获取信息之后,网站的页面不需要重新刷新,那么你访问的网站就在用 Ajax 技术。Ajax不是一门语言,而是一种异部刷新的技术。二,Ajax请求的分析方法浏览器的开发者模式是有过滤 Ajax 请求功能的。Ajax 过滤界面如原创 2020-05-18 23:46:54 · 730 阅读 · 1 评论 -
最帅爬虫_反爬虫
目录爬虫与反爬虫之间的战争第一天第二天第三天第四天第五天一、反爬虫常见方法1. IP 限制2. 验证码3. 登录限制4. 数据伪装二、反反爬虫常见方法1. 代理设置2. 构建代理池3. 设置请求频率爬虫与反爬虫之间的战争第一天小莫想要某站上所有的电影,写了标准的爬虫(基于 httpClient 库),不断地遍历某站的 电影列表页面,根据 Html 分析电影名字存进自己的数据库。这 个 站 点 的 运 维 小 黎 发 现 某 个 时 间 段 请 求 量 陡 增, 分 析 日 志 发 现 都 是 IP(原创 2020-05-18 23:32:11 · 243 阅读 · 0 评论 -
最帅爬虫_lxml 模块
目录一、lxml简介二、lxml初步使用1. 解析 HTML 字符串2. lxml 文件读取一、lxml简介lxml 是一个HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据。我们可以利用之前学习的 XPath 语法,来快速的定位特定元素以及节点信息。安装方法:pip install lxml二、lxml初步使用1. 解析 HTML 字符串from lxml import etreetext = """<div> <ul>原创 2020-05-16 22:49:06 · 521 阅读 · 0 评论 -
最帅爬虫_Xpath语法
目录一、Xpath语言简介1. 什么是 XML2. XML 和 HTML 的区别3. XML 的节点关系3.1 父(Parent)3.2 子(Children)3.3 同胞(Sibling)3.4 先辈(Ancestor)3.5 后代(Descendant)二、Xpath用法1. 选取节点2. 谓语3. 选取未知节点4. 选取若干路径一、Xpath语言简介正则用的不好,处理 HTML 文档很累,有没有其他的方法?有!那就是 XPath,我们可以:(1)先将 HTML 文件转换成 XML 文档,(2原创 2020-05-16 22:39:28 · 487 阅读 · 0 评论 -
最帅爬虫_必须学的正则模块
目录摘要:为什么学正则表达式一、 什么是正则表达式二、 python中的re模块三、 re 模块的使用步骤compile 函数Pattern 对象1.match 方法2.search 方法3.findall 方法4.finditer 方法5.split 方法6.sub 方法四、贪婪模式与非贪婪模式示例一 :示例二 :摘要:为什么学正则表达式实际上爬虫一共就四个主要步骤:1.明确目标 (要知道你准备在哪个范围或者网站去搜索)2.爬 (将所有的网站的内容全部爬下来)3.取 (去掉对我们没用处的数据)原创 2020-05-14 23:02:25 · 221 阅读 · 0 评论 -
最帅爬虫_代理的设置
目录一,为什么用代理二,代理的流程三,设置代理一,为什么用代理在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网。站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果你一直用同一个代理 ip 爬取这个网页,很有可能 ip 会被禁止访问网页,所以基本 上做爬虫的都躲不过去 ip 的问题。二,代理的流程形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了 请求给 web 服务器,web 服务器把响应传回给我们。如果设置了代理服务器,实际上就是原创 2020-05-13 23:02:25 · 171 阅读 · 0 评论