
爬虫学习
spider
番茄炒鸡蛋z
好好学Python
展开
-
Python爬虫学习(八)----scrapy框架
目录一:scrapy简介scrapy初识什么是框架?如何学习框架?什么是scrapy?scrapy基本使用环境安装scrapy使用流程:爬虫文件剖析scrapy基于xpath数据解析操作二:scrapy的数据持久化存储方式一:基于终端指令的持久化存储方式二:基于管道的持久化存储操作编码流程案例实战面试题:如果最终需要将爬取到的数据值一份存储到磁盘文件,一份存储到数据库中,则应该如何操作scrapy?三:scrapy基于Spider类的全站数据爬取基于scrapy如何进行全站数据爬取呢?案例实战:爬取校花网全原创 2020-10-02 09:12:57 · 347 阅读 · 0 评论 -
Python爬虫学习(七)----动态加载数据处理
目录selenium模块的基本使用简介selenium和爬虫之间的关联selenium使用流程环境安装下载浏览器驱动程序(比如谷歌浏览器)实例化一个浏览器对象编写基于浏览器自动化的操作代码selenium处理iframe实例代码案例实战无头浏览器 + 反检测谷歌无头浏览器selenium规避被检测识别基于selenium实现12306登录12306模拟登录编码流程selenium模块的基本使用简介selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决 requests 无法直接执行 J原创 2020-09-25 18:01:21 · 1047 阅读 · 0 评论 -
Python爬虫学习(五)----requests模块高级
目录模拟登陆引入通过案例分析需求:对人人网进行模拟登录模拟登陆引入有时候,相关的需求会让我们去爬取基于某些用户的相关用户信息,例如爬取张三人人网账户中的个人身份信息、好友账号信息等。那么这个时候,我们就需要对当前用户进行登录操作,登录成功后爬取其用户的相关用户信息。通过案例分析需求:对人人网进行模拟登录**分析:- 点击登录后会发送一个post请求- post请求会携带登录之前录入的登录信息(用户名、密码、验证码....)...原创 2020-09-20 12:58:21 · 248 阅读 · 0 评论 -
Python爬虫学习(四)----验证码
目录什么是验证码?识别验证码的操作第三方打码平台打码平台一般使用流程(以超级鹰为例)使用打码平台识别验证码流程案例实战什么是验证码?验证码是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。验证码是一种反爬机制。识别验证码的操作肉眼识别。第三方自动识别第三方打码平台有很多,例如超级鹰、雯雯打码等原创 2020-09-19 10:44:16 · 385 阅读 · 0 评论 -
Python爬虫学习(三)----数据解析
目录引入数据解析原理概述数据解析分类方式一:正则表达式方式二:bs4引入聚焦爬虫:爬取页面中指定的页面内容编码流程:1、指定url2、发起请求3、获取响应数据4、数据解析5、持久化存储数据解析原理概述解析的局部的文本内容都会在标签或者标签对应的属性中进行存储。1.进行制定标签的定位2.标签或者标签对应的属性中存储的数据值进行提取(解析)数据解析分类正则表达式bs4解析xpath解析(***)方式一:正则表达式爬取图片import requests原创 2020-09-18 21:30:23 · 828 阅读 · 0 评论 -
python爬虫中使用lxml解析本地HTML文件报错lxml.etree.XMLSyntaxError: Opening and ending tag mismatch.....
问题描述使用lxml.etree.parse()解析html文件,该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误,报错代码如下:lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and column 问题解决自己创建html解析器,增加parser参数from lxml import etreeparser = etree.HTMLParser(encoding=原创 2020-09-16 21:00:40 · 4657 阅读 · 7 评论 -
Python爬虫学习(二)----requests模块基础
目录引入什么是requests?如何使用requests?环境安装使用流程第一个爬虫程序requests案例实战1.基于requests模块的get请求2.基于requests模块的post请求3.基于requests模块ajax的get请求4.基于requests模块ajax的post请求5. 综合实战引入在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当reque原创 2020-09-09 16:36:37 · 552 阅读 · 0 评论 -
Python爬虫学习(一)----基本介绍
目录什么是爬虫?爬虫分类反爬机制反反爬策略robots协议http & https 协议1. http协议2. https协议什么是爬虫?爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫分类通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取原创 2020-09-02 11:29:18 · 175 阅读 · 0 评论