
python 爬虫
文章平均质量分 89
Huterox
好好学习,天天向上。
展开
-
HTTPS && js逆向代发调试(chrome)
HTTPS这里先简单的说明一下https协议,简单地说一下什么是对称加密与非对称.对称加密这个其实很简单,说一句人话就是两个人在对话的时候使用某一种加密手段对聊天地内容进行加密,防止第三方获取.具体到案例中就是,我们先前写的HTTP服务器一样,在传输过程中,客户端和服务端传输的时候都是直接使用二进制进行传输的.那么对称加密其实就是在对那些二进制数据进行加密(你可以这样理解,那么我们同时使用的一套加密手段就叫对称加密,这个过程中我们都同时拥有(客户端与服务端)加密与解密的手段.那么我们通过的这种方式(加原创 2021-03-11 00:26:42 · 507 阅读 · 0 评论 -
selenium与python爬虫(五)【数据处理(目标四)百度翻译实例】
selenium获取网页源代码的区别这个第一篇博客就已经写过了。但是这里要重申一下的是他的区别drive=webdriver.Chrome()drive.get('https://www.baidu.com/')print(drive.page_source)page_source是selenium返回的源代码,但是这里和我们通过requests库获取的区别在于。selenium是可以动态获取不断更新的,selenium更像是一个浏览器,她可以像浏览器一下直接获取Ajax里面显示的页面。比原创 2020-09-09 23:18:08 · 561 阅读 · 0 评论 -
selenium与python爬虫(四)【鼠标行为(目标3)】
selenium的鼠标点击鼠标地点击可以分为单击 click()双击 double_click()右击 context_click()点击鼠标左键,不松开 click_and_hold()现在以百度地那个例子为例from selenium import webdriverfrom selenium.webdriver.common.by import Bydrive=webdriver.Chrome()drive.get('https://www.baidu.com/')Subm原创 2020-09-09 22:10:10 · 496 阅读 · 0 评论 -
selenium与python爬虫(三)【定位与操作(目标2)】
selenium的定位(定位书写)在初始的selenium中介绍过selenium的定位,实际上关于selenium的定位就是那么简单。即通过elemen的属性的值,id等进行定位,甚至可以直接使用xpath而这也是本人最喜欢的方法之一。关于定位的写法我这里分为两大类简写方式常规方式二者在效果上一至只是有时候简写模式会让代码看起来更舒适,同时在有些时候只能使用简写模式。关于二者具体区别,可以查看关于selenium的第一篇博客。博客地址常规from selenium import we原创 2020-09-09 19:42:34 · 315 阅读 · 0 评论 -
selenium与python爬虫(二)【等待与多窗口(目标1)】
目标明确1.我们的目标首先是打开一个网页2.定位其中一个元素或者多个执行对应的操作3.根据需求对该元素进行操作和获取,对获取的数据进行处理4.之后再根据需求再打开更多的网页重复之前的操作总体而言,我们的步骤分为这四大步,但是每一步又可以细分为几个小步。那么现在我们就来实现目标一打开网页(细分一,开网页)这个在上一篇博客已经有写过。使用get()方法打开网页from selenium import webdriverdrive=webdriver.Chrome()drive.maximi原创 2020-09-06 11:09:52 · 676 阅读 · 0 评论 -
Selenium与python爬虫(一)【安装与定位元素】
selenium配置首先搞清楚selenium是干嘛的。这个东东其实是用来做自动化网页测试的。就是模拟人类行为像鼠标键盘之类的操作,与之前使用requests等的区别在于,这玩意是一个动态获取的行为。不是单纯的一次性的获取网页源代码,可以后不断获取,最简单的在爬虫中的应用就是移动滑块验证。下载selenium可以直接使用pip下载安装指令。配置浏览器,下载相应的webdriver版本即可下面以chrome为例1.查看chrome版本2.下载 chromedriver下载网址3.将下载好的原创 2020-09-02 18:32:17 · 439 阅读 · 0 评论 -
python爬虫于不信任的ssl证书
requests的解决方案以前我也在博客里面写过关于不信任的证书的问题,比如(博客地址);但是写的并不完善,现在如果只是这样单纯的这样,结果是依然会报错的。这里是由于官方强制加入了请求的安全证书验证,所以必须加入如下语句import urlliburllib3.disable_warnings()reqs=requests.get(url=root_url,headers=headers,verify=False)不导入urllib3也可以requests.packages.urll原创 2020-08-25 23:02:07 · 549 阅读 · 0 评论 -
实例一下python多线程图片小爬虫
tips这个多线程已经说的比较清楚了,这篇博客是前两篇有关于多线程的一个实例衍生。这个代码还是很简单的。爬虫不太懂得我先前没怎么写完爬虫的博客,我没辙。但是多线程这块我讲的很明白了,看不懂我也没辙,要不然就私信有时间就回。几分钟搞定python多线程几分钟python多线程深入解读那么接下来代码如下;import requestsfrom lxml import etreeimport threadingimport osfrom urllib import requestfrom原创 2020-08-07 19:34:39 · 924 阅读 · 0 评论 -
Beautiful Soup 小结
简介Beautiful Soup 是一个功能强大的解析库可以用来解析HTML代码提取信息,但是运行效率较慢。不需要像xpath和正则表达式一样学习相应的语法,只需要通过相应方法的调用就可以实现信息恶的提取。常用的方法find()find_all()get_text()stringstringsstripped_stringsselectfind()与find_all()的区别假设我们已经有一个获取好了的html代码字符from bs4 import BeautifulSoup so原创 2020-07-20 16:36:24 · 408 阅读 · 0 评论 -
xpath与lxml的亲密接触
如何在python中使用xpath前门说了那么多xpath的语法,那么现在该如何使用呢。这里的话就离不开我们的lxml这个库里面的etree。这里要注意一下的时由于lxml时使用C语言编写的所以有些函数方法在pycharm中是没有提示的。安装lxmlpip install lxml直接通过pip来安装如果出现了一些问题的可以去查看我之前写的有关于pip安装的博客。etree和xpath的联动(element)用我们先前的上一篇博客的例子;Xpath 的语法小结我们继续以这个诗歌网站为例。1原创 2020-07-19 22:07:16 · 335 阅读 · 0 评论 -
Xpath 的语法小结
Xpath用于提取网页上的信息,方便高效快捷。(当然学会正则走天下)本篇博客将总结xpath使用语法。Xpath 浏览器工具(chrome)1 使用插件工具xpath helper2下载安装插件。由于某些原因我们无法从谷歌浏览器中直接下载所以这里可以从我的云盘上下载链接:https://pan.baidu.com/s/1xkj3OxnxrVI-lvuAyVbZnQ提取码:bwfn3安装插件;0.1 先解压0.2 将crx文件拖入谷歌浏览器拓展程序中Xpath 特点首先 xpat原创 2020-07-19 17:41:51 · 617 阅读 · 0 评论 -
python爬虫系列(六)
文件下载前面我们已经可以读取网站的源代码了现在为了方便管理我们往往需要将其保存。当然这里就不得不说到数据库这个东东比如Mysql,当然鉴于目前只是基础教程,我们不讲太复杂的东西。这里我们可以使用urllib.request.urlretrieve文件操作Python open() 方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 ...原创 2019-05-25 21:05:53 · 241 阅读 · 0 评论 -
python爬虫系列(五)
gzip解压在python爬虫系列(四)中我们发现,当我们爬取到网页后所出现的效果是这样的。很显然这不是我们想要的内容,那么如何做呢?我们可以使用io和gzip完成效果如下:怎么实现的呢?首先我们要先得到网站返回的可读对象。导入io 中的BytesIO 创建关联。之后创建gzip的解码对象,之后读取解码。核心解码代码如下:reason=reason=req.open(url).r...原创 2019-05-19 13:11:57 · 297 阅读 · 0 评论 -
python爬虫系列(四)
urllib.error使用回顾上一篇python爬虫系列(三)的内容,我们说我们可以做一个百度自动搜索爬虫。但是你有没有想过网站是很复杂的你写的爬虫可能很容易崩溃。因此我们有必要请出我们的异常处理。urllib.error这里我们先介绍一下其使用方法。这里用超时设置来做演示。 import urllib.request import urllib.error try...原创 2019-05-16 13:42:55 · 282 阅读 · 0 评论 -
python爬虫系列(三)
常用正则表达式如果没猜错的话当大家看了我写的python爬虫系列(二)的话我想你们心中一定有千万匹马儿跑过,其实我想说的是关于上篇表达式的内容你们只需要了解一下即可因为上篇主要是为了引入一些概念来解释爬虫爬的到底是啥,感受感受。那么接下来我就来介绍一些常用的内容\w 匹配字母数字及下划线\W 匹配非字母数字及下划线\s 匹配任意空白字符,等价于 [\t\n\r\f].\S 匹配任意非空...原创 2019-05-13 13:46:49 · 890 阅读 · 0 评论 -
python爬虫系列(二)
回顾如果你已经看来并已经弄懂了我前面所写的python爬虫系列(一)那么我相信你一定会对html很感兴趣或者好奇我是如何爬取到天气的。HTML这里我们首先要明白什么是HTML:超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。 作为一个爬虫首先要爬取的就是网站html码源,即通过get请求获取下面我会详细介绍。不过我们...原创 2019-05-12 17:07:55 · 475 阅读 · 0 评论 -
python爬虫系列(一)
前言关于python爬虫目前有两个主流的库一个是urllib和requests 在python3中urllib2已经没有了,取而代之的是urllib.request。这里的话我将首先介绍urllib.request的使用。之后我在介绍request,我本人是打算做一个系列的爬虫教程不仅仅包括入门还有实战进阶所以我希望浏览我写的博客时可以按顺序浏览学习。那么废话不多说奉上名言成功没有偶然。 即便有...原创 2019-05-11 21:17:29 · 772 阅读 · 0 评论 -
python爬虫系列
PYTHON 爬虫专栏(基础)前言说实话我从来没想过有一天我竟然会坐在这里开始书写。我的博客也从来没有想过有一天我会与python结下不解之缘。在这里我真心希望我的博客会对你们有所帮助,感谢你们的支持!不负青春,不负你们的梦想,你们爱的人,和你们所爱的人!正篇目前在市面上有许多的编辑器,比如功能快捷键撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:...原创 2019-05-11 13:42:39 · 580 阅读 · 1 评论 -
python爬虫分分钟搞定Requests。
请求方式requests有两种请求方式一个是get 一个是post 两种方式用于请求网站。import requestsurl='https://www.baidu.com/'date=requests.get(url)#data=requests.post(url)其中post请求可以提供表单,传入用户名,密码等向服务器发送请求。解码字符串当网站返回请求的时候有两种方式1.1 textimport requestsurl='https://www.baidu.com/'date=原创 2020-07-18 16:51:30 · 506 阅读 · 0 评论 -
图片爬取实战
废话不多说,先直接上代码from urllib import requestimport reimport osimport sslssl._create_default_https_context = ssl._create_unverified_contextheader={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; \ ...原创 2020-05-01 21:19:47 · 442 阅读 · 0 评论