
Python
Python 爬虫
sharp_wu
这个作者很懒,什么都没留下…
展开
-
最近被吞噬星空动漫吸引,那就愉快的爬取一下小说看看吧!----Python爬虫
作为一个国产动漫迷,前几天的斗罗,实在太震撼了吞噬星空作为后来者,也不赖。那就让我们来爬取他的小说吧!前期准备使用Python requests发送请求,xpath解析数据所以没有安装以上两个模块的小伙伴,安装一下咯:pip install requestspip install lxml踩点小说网站找到一个可以免费看吞噬星空的网站https://www.biqumo.com/8_8497F12 研究一下网页源码,如下图所示:dd标签就是各章节的目录及链接。进入章节详情页,分别找到原创 2020-12-23 15:26:34 · 922 阅读 · 0 评论 -
Python爬虫 增量式爬虫 通用爬虫 聚焦爬虫
爬虫分类通用爬虫聚焦爬虫增量式爬虫通用爬虫 和 聚焦爬虫 之前的博客有讲解过了,本篇主要讲解增量式爬虫增量式爬虫概念:检测网站数据更新的情况,只会爬取最新更新的数据适用于持续跟踪网站的数据爬取。例如三个月前,爬取了所有数据。网站更新了100条数据,此时爬取跟新的100条数据即可。...原创 2020-12-19 13:42:32 · 684 阅读 · 2 评论 -
Python爬虫 scrapy框架(五)分布式爬虫 scrapy-redis
scrapy框架分布式爬虫概念搭建一个分布式的机群,让其对一组资源进行分布联合爬取作用提升爬取数据的效率实现原生的scrapy是不可以实现分布式爬虫的,必须结合着scrapy-redis组件一起实现分布式爬虫。调度器不可以被分布式机群共享管道不可以被分布式机群共享安装scrapy-redis组件 pip install scrapy-redisscrapy-redis作用:可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个基于Cr原创 2020-12-17 18:28:50 · 318 阅读 · 0 评论 -
Python爬虫 scrapy框架(四)CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule
scrapy框架CrawlSpiderCrawlSpider:基于Spider的子类,继承父类的功能,且派生出自己的功能。全站数据爬取的方式基于Spider:手动请求发送基于CrawlSpider:基本使用创建一个工程scrapy startproject quanzhanPro切换到工程目录cd quanzhanPro创建一个基于CrawlSpider类的爬虫文件scrapy genspider -t crawl quanzhan wz.sun0769.com/politi原创 2020-12-17 15:59:49 · 1132 阅读 · 7 评论 -
Python爬虫 scrapy框架(三)中间件 爬虫/下载中间件 拦截请求/响应 爬取网易新闻的新闻数据
scrapy框架中间件爬虫中间件 MiddleproSpiderMiddleware下载中间件 MiddleproDownloaderMiddleware爬虫中间件位于引擎和爬虫之间class MiddleproSpiderMiddleware: # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the spider middleware does not原创 2020-12-16 20:10:34 · 2570 阅读 · 0 评论 -
Python爬虫 scrapy框架(二)全站数据爬取 五大核心组件 请求传参meta 爬取图片ImagesPipeline 反爬机制:图片懒加载
scrapy框架基于Spider全站数据爬取将网站中某板块下的全部的页码对应的页面数据进行爬取。实现方式:将所有页码的url添加到start_urls 列表(不推荐)自行手动进行请求的发送(推荐) yield scrapy.Request(url=new_url, callback=self.parse) #callback 用于数据解析案例爬取 www.521609.com/tuku/mxxz/index.html 下所有页码的图片名称scrapy startproject xh原创 2020-12-16 15:26:36 · 559 阅读 · 1 评论 -
Python爬虫 scrapy框架(一) 基本使用 数据解析 持久化存储
什么是框架集成了很多功能,并且具有很强通用性的一个项目模板。(或理解成一个项目的半成品)scrapy框架爬虫中封装好的一个明星框架。功能:高性能的持久化存储操作异步的数据下载高性能的数据解析分布式环境安装Mac & Linuxpip isntall scrapyWindows1、 wheelpip install wheel2、下载Twisted(科学上网)https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted原创 2020-12-16 10:52:57 · 527 阅读 · 0 评论 -
Python selenium自动化模拟12306登录 验证码识别 滑动滑块
模拟12306登录验证码识别平台本次选择超级鹰https://www.chaojiying.com/12306 验证码识别 价格体系注册充值之后生成软件id(一元即可)下载官方demo官方demo.py#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __init__(self, usernam原创 2020-12-15 14:55:47 · 3237 阅读 · 15 评论 -
Python selenium自动化 无头浏览器
selenium模块与爬虫的联系便捷的获取网站中动态加载的数据便捷的实现模拟登入定义基于浏览器自动化的模块。使用流程安装环境pip install selenium下载浏览器的驱动程序以下以谷歌浏览器为例:http://chromedriver.storage.googleapis.com/index.html下载对应版本的驱动实例化浏览器对象from selenium import webdriverdriver = webdriver.Chrome(execut原创 2020-12-14 20:57:21 · 5474 阅读 · 0 评论 -
Python爬虫 asyncio异步编程 协程事件循环、async、await、Task、Ruture
asyncio异步编程event_loop 事件循环:相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足条件时,就会调用对应的处理方法。coroutine 协程:协程对象,只一个使用async关键字定义的函数,他的调用不会立即执行函数,而是会返回一个协程对象。协程对象需要注册到事件循环中,由事件循环调用。task 任务:一个协程对象就是一个原生可以挂起的函数,任务则是对协程的进一步封装,其中包含任务的各种状态。future:代表将来执行或没有执行的任务结果。它与task没有本质的区原创 2020-12-14 15:40:33 · 1062 阅读 · 2 评论 -
Python爬虫 协程 greenlet yield asyncio async&await
异步编程原创 2020-12-11 14:50:02 · 297 阅读 · 0 评论 -
Python爬虫 代理
代理反扒机制:封IP当某一个IP请求一个门户网站单位时间的次数达到一个阈值时,门户网站可能采取一些反爬措施,限制当前IP访问,拒绝访问。反反爬机制:代理(破解封IP反爬机制)定义:代理服务器:本机请求网站发送给代理服务器,代理服务器中转向web服务器请求,此时web服务器上请求的IP就不是本机的IP,而是代理服务器的IP。从而实现破解封IP的反爬机制。作用突破自身IP访问的限制隐藏自身真实的IP,免受攻击第三方代理快代理西祠代理www.goubanjia.com代理类型原创 2020-12-09 15:19:46 · 333 阅读 · 0 评论 -
Python爬虫 反爬机制:验证码识别 基于cookie登录:session会话对象
验证码识别反爬机制:验证码验证码是门户网站使用的一种反爬机制。识别验证码图片中的数据,用于模拟登录操作。识别验证码方式人工肉眼识别(不推荐,效率低)第三方自动识别第三方自动识别超级鹰收费的,不能白嫖了,量力而行吧http://www.chaojiying.com/tesserocr穷逼的我选择这个-_-tesserocr 是 Python 的一个 OCR 识别库tesserocr其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tess原创 2020-12-08 19:26:54 · 914 阅读 · 0 评论 -
Python爬虫数据解析(聚焦爬虫) 正则、BS4、Xpath
数据解析(聚焦爬虫)聚焦爬虫:爬取页面中指定的页面内容。聚焦爬虫的编码流程:指定url发起请求获取响应数据数据解析持久化存储建立在通用爬虫基础之上,先爬取整个页面,之后进行指定局部的数据进行提取。这个提取的过程就称之为数据解析数据解析分类:正则bs4Xpath(最通用的,重点)数据解析原理:解析的局部内容基本上会存储在标签之间或标签的属性中;进行指定的标签定位标签之间或标签的属性中存储的数据进行提取(解析)爬取图片数据content 二进制数据text 文原创 2020-12-08 13:45:37 · 798 阅读 · 0 评论 -
Python爬虫网络请求 requests(get、post)
Python网络请求模块urllibUrllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。第二个 error 模块即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。第三个 parse 模块是原创 2020-12-07 13:57:54 · 5173 阅读 · 1 评论 -
HTTP协议、HTTPS协议、加密方式
HTTP超文本传输协议—服务器与客户端进行数据交互的一种形式常用请求头User-Agent请求载体(浏览器)的身份标识包含当前操作系统的版本、当前浏览器的版本Connection请求完毕后,是保持连接还是断开连接closekeep-alive常用响应头Content-Type服务器响应回客户端的数据类型常见的媒体格式类型如下:text/html : HTML格式text/plain :纯文本格式text/xml : XML格式image/gif :gif图片格式i原创 2020-12-05 11:14:00 · 1080 阅读 · 0 评论