
Python爬虫
文章平均质量分 52
karry_孙二
学习记录
展开
-
Python爬虫-17-案例:利用爬虫框架scrapy ,爬取JavaScript动态加载网页,将图片下载至本地
新建项目1)在cmd中创建爬虫项目2)项目结构(由于基础模板设置这里会默认新建一个images.py文件,不设置的话这边可以直接写也是可以的)3)设置settings图片下载地址分析1)查看萌女最新选项的图片2)查看请求信息,发现规律3)浏览器打开urlhttp://image.so.com/zjl?ch=beauty&sn=0...原创 2019-07-09 08:42:32 · 1918 阅读 · 0 评论 -
Python爬虫-16- pytesseract验证码识别
pytesseractpytesseract是Python的一个OCR识别库,OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。pytesseract其实是对tesseract做的一层Python API封装...原创 2019-07-02 15:54:52 · 2429 阅读 · 0 评论 -
Python爬虫-15-案例:爬取手机壁纸网址所有图片(三)
前提:本篇结合多线程threading模块来爬取,可以大大缩短下载时间脚本# coding:utf-8import osimport timeimport threadingimport requestsfrom lxml import etreecur_path = os.path.dirname(__file__)file_path = os.path.jo...原创 2019-06-04 11:52:43 · 457 阅读 · 0 评论 -
Python爬虫-14-案例:爬取手机壁纸网址所有图片(二)
前提基于前一篇的爬取结果,图片是下载下来了,但是有一个问题是,每张图片都很小如截图,打开后是这样的,本篇继续优化,起码保证下载下来的图片可以正常使用哈分析1)打开图片页面后,发现上面有尺寸显示,不同尺寸大小不同2)右击查看我们这里下载的都是默认的120*90的大小3)思考:将这里的尺寸直接替换成我们想要的即可,我这里选的是640*960(在页面看这个尺寸大小...原创 2019-06-04 11:52:36 · 397 阅读 · 0 评论 -
Python爬虫-13-案例:爬取手机壁纸网址所有图片(一)
前提爬取页面中的最新壁纸的所有图片,并以图片分类的名称保存在相应的文件夹下页面分析1.整体页面:请求第一个页面的地址:http://sj.zol.com.cn/bizhi/new_1.html点击下一页,发现第二个页面的地址:http://sj.zol.com.cn/bizhi/new_2.html由此可以看出,想要爬取指定页面,传递相应的数字给new_后面的数字即可...原创 2019-06-04 11:52:28 · 1476 阅读 · 0 评论 -
Python爬虫-12-爬虫结果包含中文字符,查看出现乱码的解决方案
demoimport requestsfrom lxml import etreeimport time"""场景:爬取煎蛋网20个页面的所有标题"""def jandan_index_title(u_num,t_num,u_rl="http://jandan.net/page/",xpath="//*[@id='content']/div[%s]/div/h2/a"): ...原创 2019-05-20 14:44:51 · 874 阅读 · 0 评论 -
Python爬虫-11-response.text出现乱码的解决方案
代码如下:# 这里是封装的一个下载url页面的方法import requestsdef download_page(url, user_Agent=None, referer=None): print("Downloading:",url) headers = { "Referer":referer, "User-Agent":us...原创 2019-05-14 16:55:35 · 7373 阅读 · 0 评论 -
Python爬虫-10-lxml匹配
lxml匹配lxml 是python三方的结构匹配模块, lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高lxml匹配步骤(1)导入模块:from lxml import etree(2)lxml在爬虫匹配当中具有相当固定的套路① 将爬虫获取到的HTML字符串转换为HTML结构图② xpath匹配获取数据...原创 2018-11-16 08:55:48 · 1524 阅读 · 0 评论 -
Python爬虫-9-beautifulsoup匹配
beautifulsoup匹配BeautifulSoup是Python的一个库,最主要的功能就是从网页匹配我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。安装:pip3 install beautifulsoup4Beautifulsoup和xpath的使用结构大同小异be...原创 2018-11-16 08:39:37 · 925 阅读 · 0 评论 -
Python爬虫-8-Lxml简单案例
以爬取简书首页标题为例import requestsfrom lxml import etree# 简书首页title爬取class LxmlSpider: def __init__(self): self.session = requests.Session() def jian_shu_spider(self, url, headers): ...原创 2018-10-18 10:00:34 · 404 阅读 · 0 评论 -
Python爬虫-7-BeautifulSoup简单案例
以爬取简书首页标题为例# coding:utf-8import requestsfrom bs4 import BeautifulSoup# 简书首页title爬取class SoupSpider: def __init__(self): self.session = requests.Session() def jian_shu_spider(s...原创 2018-10-18 09:51:05 · 891 阅读 · 0 评论 -
Python爬虫-6-scrapy框架-response
Scrapy response1.response方法和参数(1)body:http响应的正文,字节(2)body_as_unicode:字符串类型的响应(3)copy:复制(4)css:以css进行匹配(5)encoding:加码(6)headers:响应头部(7)meta:响应处理的参数(8)replace:替换(9)request:产生http请求的request对...原创 2018-10-15 11:19:26 · 3186 阅读 · 1 评论 -
Python爬虫-5-scrapy框架-request
Scrapy 介绍Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据特点:数据结构化、分布式Scrapy主要包括了以下组件:1)引擎,用来处理整个系统的数据流处理,触发事务。2)调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。3)下载器,用于下载网页内容,并将网页内容返回给蜘蛛...原创 2018-10-13 17:26:29 · 849 阅读 · 0 评论 -
Python爬虫-4-模拟登陆
模拟登陆分类1.暴力模拟登陆暴力模拟登陆:忽略web设计原理,忽略登陆需求,硬性的将cookie取出加载爬虫当中进行登录。2.原理分析模拟登陆原理分析模拟登陆: 根据网站源码和抓包请求,分析网站登录原理,用代码依照登录原理向服务器具体接口提交具体数据,实现模拟登录,技术含量最高,难度最大。3.浏览器驱动模拟登陆浏览器驱动模拟登陆:使用Python调用浏览器驱动,执行浏览器行...原创 2018-10-13 17:09:35 · 6324 阅读 · 0 评论 -
Python爬虫-3-正则匹配
匹配分类我们在爬虫学习过程当中,大部分时候服务器返回给我们的是html,我们需要从HTML当中将数据过滤出来。所以我们需要学习字符串的匹配1.按照匹配内容进行描述正则匹配:内容的类型和内容的长度匹配2.按照匹配结构进行描述Xpath lxml:结构特征匹配安装:pip install lxml3.综合性的匹配Beautifulsoup:就是可以同时进行结...原创 2018-10-13 16:43:30 · 1149 阅读 · 0 评论 -
Python爬虫-2-get请求
get请求常见使用方法1.网站分类如下图页面的每个分类,通过get请求数据2.网站分页如:链家租房页面的分页3.搜索关键字如:百度搜索4.瀑布流参数如百度图片:不会一次性将所有图片全部显示出来,这样会给服务器造成压力,也避免客户长时间的等待,所以图片都是慢慢加载出来的urllib get1.url分析我们在爬取网站之前,...原创 2018-10-13 16:25:03 · 3725 阅读 · 0 评论 -
Python爬虫-1-基础
爬虫定义爬虫(spider):是用脚本代替浏览器请求服务器获取服务器资源的程序。(python爬虫优势,支持模块很多,有scrapy非常强大的爬虫框架)爬虫分类1.通用爬虫1)实例:百度等搜索引擎2)功能:访问网页 --> 抓取数据 --> 数据存储 --> 数据处理 --> 提供检索服务3)爬取流程:① 给定一些起始的url,放入待爬取队...原创 2018-10-13 16:07:55 · 246 阅读 · 0 评论