
爬虫【python】
文章平均质量分 86
爬呀爬,爬到外婆桥【来源于《《Python 3网络爬虫开发实战》】
Amae
这个作者很懒,什么都没留下…
展开
-
爬虫:Splash使用
Splash 是一个JavaScript渲染服务,是一个带有HTTP API的轻量浏览器,同时它对接了Python中的Twisted和QT库利用它,可以同样实现动态渲染页面的抓取1、安装Scrapy-Splash 是一个Scrapy中支持JavaScript渲染的工具,安装分为两部分,一个是Splash服务的安装,具体是通过docker,安装之后,会启动一个服务,通过它的接口来实现JavaScript 页面的加载,另外一个是Scrapy-Splash的Python库的安装,安装之后可在Scrapy中原创 2022-01-13 23:01:02 · 4111 阅读 · 2 评论 -
爬虫:动态页面爬取Selenium
Ajax其实也是JavaScript动态渲染的页面的一种情形,不过JavaScript 动态渲染的页面不止Ajax 这一种: 比如中国青年网(详见 http://news.youth.cn/gn/ ), 它的分页部分是由 JavaScript 生成的,并非原始 HTML代码,这其中并不包含 Ajax 请求。 比如 ECharts 的官方实例(详见 http: //echarts.baidu.com/demo.html#bar-negative ),其图形都是经过 JavaScript 计算之后生成的。 再有原创 2022-01-05 22:55:20 · 10733 阅读 · 5 评论 -
爬虫:Ajax数据爬取
目录1、什么是Ajax1.1 实例的引入1.2 基本原理2、Ajax分析方法1、查看请求2、过滤请求3、Ajax结果提取1、分析请求2、分析响应3、例子我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有, 这是因为 requests 获取的 都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的.原创 2022-01-03 16:58:13 · 9465 阅读 · 0 评论 -
爬虫:CSV文件存储
CSV,全称为 Comma-Separated Values ,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文 本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔,每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符, 不过所有记录都有完全相同的字段序列 ,相当于一个结构化表的纯文本形式, 它比 Excel 文件更加简介, XLS 文本是电子表格,它包含了文本、数值、公式和格式等内容,而 CSV 中不包含这些 容,就是特定字符分割的纯文本,结原创 2022-01-02 19:15:18 · 986 阅读 · 0 评论 -
爬虫:JSON文件存储
JSON ,全称为 JavaScript Object Notation 也就 JavaScript 对象标记,它通过对象和数组的组合 来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式目录对象和数组读取Json输出JSON对象和数组JavaScript 语言中,一切都是对象, 因此,任何支持的类型都可以通过 JSON 来表示,例如字符串、数字、 对象 、数组等,但是对象和数组都是比较特殊且常用的两种类型,下面简要介绍一下 它们对象:他在JavaScript原创 2022-01-02 15:50:09 · 1351 阅读 · 0 评论 -
爬虫:文件存储:Text
文件保存的形式是多种多样的,最简单的形式是直接保存文本文件,如:TEXT,JSON,CSV等,另外还可以保存到数据中,如关系型数据库Mysql,非关系型数据库等:MongoDB,Redis等TXT文本保存保存知乎上"发现"页面的"热门话题"部分,将其问题和答案统一保存成txt形式import requestsfrom pyquery import PyQuery as pqurl = "https://www.zhihu.com/explore"headers = {"user-ag原创 2022-01-02 14:57:59 · 997 阅读 · 0 评论 -
爬虫:pyquery 解析库
如果你比较喜欢CSS选择器,对jQuery有所了解,那么这个库更加适合——pyquery初始化向Beautiful Soup一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个PyQuery对象,它的初始化方式有很多种,比如直接传入字符串,传入URL,传入文件名1、字符串初始化...原创 2022-01-01 22:55:13 · 729 阅读 · 0 评论 -
爬虫:Beautiful Soup
目录Beautiful Soup 简介解释器基本用法节点选择器选择元素提起信息1、提取名称2、获取属性3、获取内容嵌套选择关联选择1、子节点和子孙节点2、父节点和祖先节点3、兄弟节点4、提取信息方法选择器1、find_all()2、find() :返回单个元素CSS选择器1、嵌套选择2、获取属性3、获取文本对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有 id,class 来作区分,所以借助它们.原创 2021-12-26 17:40:34 · 1289 阅读 · 0 评论 -
爬虫:Xpath定位
对于网页的节点来说,定义id,class或其他属性。而且节点之间还有层级关系,在网页中通过XPath或CSS选择器来定位一个或多个节点,对于这种解析库非常多,其中比较强大的库有lmxl,Beautiful Soup、pyquery等,XPath概览...原创 2021-12-25 14:16:02 · 2755 阅读 · 0 评论 -
爬虫:Requests高级用法
了解了 requests 基本用法 ,如基本的 GET, POST 请求以及 Response 对象 本节巾,我们再来了解下 requests 些高级用法,如文件上传、 Cookies 设置 代理设置等1、文件上传requests 可以模拟提交一些数据, 假如有的网站需要上传文件,我们也可以用它来实现, 这非常简单import requestsfiles = { "files": open("favicon.ico","rb")}response = requests.pos原创 2021-12-05 08:44:49 · 1635 阅读 · 0 评论 -
爬虫:使用Requests模块基本使用
目录安装Requests示例引入GET请求抓取网页抓取二进制数据POST请求常用的响应我们了解urllib的基本用法,但是其中确实有不方便的地方,比如处理网页验证和 ookies时,需要写 Opener 和Handler来处理.。为了更加方便地实现这些操作,就有了更为强大的库request ,有了它,Cookies 、登录验证、代理设置等操作都不是事儿。安装Requestspin install requests示例引入import requ...原创 2021-11-30 22:34:26 · 1790 阅读 · 0 评论 -
爬虫:Robots协议
Robots 协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准( Robots Exclusion Protocol ),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取 它通常是一个叫作 robots.txt的文本文件,一般放在网站的根目录下当搜索爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在 robots.txt 文件,如果存在, 搜索爬虫会根据其中定义的爬取范围来爬取, 如果没有找到这个文件,搜索爬虫便会访问所有可直接访问的页面:看个robots.txt的样例:.原创 2021-11-29 22:40:41 · 2459 阅读 · 0 评论 -
爬虫:URL解析链接
目录urlparse() :实现URL的识别和分段urlparse() 方法其他API用法urlunparse() :实现URL拼接urlsplit():解析URL把params和并到path中urlunsplit() :完成链接拼接urljoin():完成链接的合并urlencode() :序列化为GET请求参数parse_qs():反序列:字典parse_qsl() 反序列化:列表quote() :将内容转化为URL编码的格式unquote():将UR...原创 2021-11-28 22:03:01 · 2444 阅读 · 0 评论 -
爬虫:基本解析库的介绍urllib
Python2中,有urllib和urllib两个库来实现请求的发送,而在Python3中,已经不存在urllib2这个库了,统一为urllib库,他是Python内置的HTTP的请求库主要有4个模块Request:它是最基本的 HTTP 请求模块,可以用来模拟发送请求 就像在浏览器里输入网挝 然后回车 样,只需要给库方法传入 RL 及额外的 数,就可以模拟实现这个过程了Error:异常处理模块,如果出现请求错误 可以捕获这些异常,然后进行重试或 作以保证程序不会意外终止Parse:一个工具模原创 2021-11-28 14:36:27 · 375 阅读 · 0 评论 -
爬虫:Chrome、Firefox 、IE、Selenium浏览器驱动下载安装
Chrome webdriver下载下载地址:https://chromedriver.storage.googleapis.com/index.html查看自己的chrome浏览器的版本,于webdriver的驱动相同下载适合自己chrome浏览器的webdrvier原创 2021-03-02 23:37:38 · 680 阅读 · 0 评论 -
爬虫:常见的HTTP错误代码及错误原因
状态码 含义 解释 100 继续 请求者应当继续提出请求 服务器已收到请求的一部分,正在等待其余部分 101 切换协议 请求者已要求服务器切换协议,服务器已确认并准备切换 200 成功 服务然已成功处理了请求 201 已创建 请求成功并且服务器创建了新的资源 202 已接收 服务然已接受请求,但尚未处理 203 非授权信息 服务器已成功处理了请求,但返回的信息可能来自另 一个源 204 无内原创 2020-11-22 23:00:36 · 2147 阅读 · 0 评论