
爬虫
HQ_JSY
python
展开
-
爬虫—解析数据方式
一、爬虫流程1. 指定url2. 基于requests模块发起请求3. 获取响应中的数据4. 数据解析5. 进行持久化存储二、数据解析三种方式1. 正则解析(1)正则表达式单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : ...原创 2019-03-19 16:58:11 · 497 阅读 · 0 评论 -
爬虫—Http、Https
一、Http、Https概念1. Http协议 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。通俗点,HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。2. Https协议...原创 2019-03-18 20:20:18 · 1031 阅读 · 0 评论 -
爬虫—Fillder安装
https://blog.youkuaiyun.com/l1336037686/article/details/78322014原创 2019-03-22 13:15:55 · 875 阅读 · 0 评论 -
爬虫—爬虫概念
一、爬虫基本概念1. 定义 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。2. 爬虫分类(1)通用爬虫 - 爬取的是整张页面(2)聚焦爬虫 - 根据指定的需求去网上爬取指定的内容。二、反爬虫机制1.robots.txt协议:指定的是门户中哪些数据可以供爬虫程序进行爬取和非爬取2. User-Agent...原创 2019-03-18 20:00:43 · 419 阅读 · 0 评论 -
爬虫—requests模块
一、定义 requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http请求和获取返回的结果,操作很简单。pip install requests对于不需要headers中填写UA伪装的请求可使用urllib#使用urllib模块中的方法进行图片数据的爬取from urllib import request...原创 2019-03-18 19:41:07 · 299 阅读 · 0 评论 -
爬虫—jupyter环境安装
一、什么是Jupyter Notebook1. 简介 简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。2. 注册部分(1)网页应用 网页应用即基于网页形式的、结合了编写说明文档、...原创 2019-03-18 17:50:05 · 402 阅读 · 0 评论 -
爬虫—cookie设置
一、Session模块#识别人人网中的验证码图片from lxml import etreefrom urllib import requesturl = 'http://www.renren.com/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...原创 2019-03-21 22:01:42 · 1360 阅读 · 0 评论 -
爬虫—对于加密数据进行爬取
一、案例1.对一个新的网站进行爬取之前,首先要确定即将要进行爬取的数据是否为动态加载!#需求:爬取煎蛋网的图片数据 http://jandan.net/ooxximport requestsfrom lxml import etreeimport base64from urllib import requestheaders = { 'User-Agent':'...原创 2019-03-21 13:16:03 · 4912 阅读 · 2 评论 -
爬虫—次数过多HTTPConnectionPool
一、常见错误 HTTPConnectionPool(host:XX)Max retries exceeded with url: 如何让请求结束后马上断开连接且释放池中的连接资源:headers={'Connection':'close'} 使用代理ip:requests.get(url=url,headers=h...原创 2019-03-21 10:01:37 · 3467 阅读 · 0 评论 -
爬虫—反爬机制
reboot.txt User-Agent ip限制-可以代理ip 验证码 ajax动态加载页面 cookie限制 反爬机制原创 2019-03-21 09:54:55 · 636 阅读 · 0 评论 -
爬虫—request设置使用代理ip
一、获取代理ip的网站快代理 西祠代理 www.goubanjia.com二、代理ip使用#代理ipimport requestsheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.36...原创 2019-03-21 08:33:30 · 15455 阅读 · 0 评论 -
爬虫—验证码识别
一、云打码平台使用官网url:http://www.yundama.com/demo.html 注册: 普通用户 开发者用户 登录平台 普通用户 - 查询余额(题分) 开发者用户 - 创建一个软件,软件的id和通讯密钥后期在编码时会被用到 -开发文档,下载最新的DLL文档,pythonHTTP编码...原创 2019-03-21 08:29:15 · 745 阅读 · 0 评论 -
爬虫—解决乱码问题
1. 对响应数据进行修改编码为utf-82. 使用iso#爬取图片:http://pic.netbian.com/4kdongwu/url = 'http://pic.netbian.com/4kdongwu/'response = requests.get(url=url,headers=headers)#将响应数据的编码手动设定成了utf-8# response.encod...原创 2019-03-20 11:23:40 · 829 阅读 · 0 评论 -
爬虫—scrapy安装
一、安装wheel升级pippython -m pip install --upgrade pip pip3 install wheel二、检查自己电脑适合哪个版本的twisted# 命令行import pip._internalprint(pip._internal.pep425tags.get_supported())('cp36', 'cp36m', 'win...原创 2019-03-22 17:30:10 · 284 阅读 · 0 评论