
python爬虫历程
Demo.demo
码海无涯,回头是家。
展开
-
【Python爬虫历程】HTML5页面基本结构知识梳理
好久没写博客,上次爬虫接着 写吧,直接从实战开始吧如果要 爬虫,首先从了解网页开始,这篇写HTML5页面基本结构知识梳理直接在代码中讲述吧,下面附一个html页面的 完整代码,可以看看,注释说明一些东西网页主要分为head与bodyhead里面主要放一些网页的 属性,内容的样式等等body中有内容标签以及脚本用来控制操作<!DOCTYPE html><html lang="en"><head> <meta charset=.原创 2020-05-30 13:00:08 · 445 阅读 · 0 评论 -
【Python爬虫历程】XPATH常用的语法介绍
首先说明一下,不管是什么浏览器什么插件,语法都是一样的,我这里还是用的火狐浏览器的Try XPath插件做示范1.选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。比如//div,表示从全局找所有的div节点。如下图所示。全局的body下面的所有span节点,结果如图。...原创 2020-04-12 11:17:58 · 389 阅读 · 0 评论 -
【Python爬虫历程】XPATH的介绍以及XPATH插件的安装
一、XPATH是什么?干什么用的?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历,用来确定XML文档中某部分位置的语言。举个栗子比如网站中要想找html文件中某元素属性值,更好的去定位,就需要用到xpath比如上述html中的div class=“qrcode-wrapper”的...原创 2020-04-10 19:12:52 · 1047 阅读 · 0 评论 -
【Python爬虫历程】requests库的代理proxy使用以及cookie的处理
1.代理使用使用requests添加代理也非常简单,只要在请求的方法中(比如get或者post)传递proxies参数就可以了。示例代码如下:import requestsproxy={ 'http':'175.42.123.228:9999'}#这里用的是快代理的免费代理地址,自行搜索即可response=requests.get("http://httpbin...原创 2020-03-31 17:52:43 · 9416 阅读 · 0 评论 -
【Python爬虫历程】requests库的post请求的使用
上一节讲了requests库的知识点,以及requests库进行get访问请求的操作。这样一回想,感觉之前学的urllib的一些访问请求白学了。。。。今天主要来讲一下post的使用post与get不同的是post可以带数据发送请求示例代码,还是之前的拉勾网爬虫import requestsdata={ 'first': "true", 'pn':'1' ,...原创 2020-03-31 17:07:30 · 739 阅读 · 0 评论 -
【Python爬虫历程】保存cookie以及加载cookie
1.保存cookie到本地:保存cookie到本地,可以使用cookiejar的save方法,并且需要指定一个文件名:from urllib import request,parsefrom http.cookiejar import MozillaCookieJar#保存cookie到本地文件cookiejar=MozillaCookieJar('cookie.txt')h...原创 2020-03-30 16:16:36 · 544 阅读 · 0 评论 -
【Python爬虫历程】登录回去cookie并且进行带有cookie的请求
还是上节说的人人网,需要登录之后才能访问某些主页,即headers中必须带有cookie参数才能进行访问1.登录获取cookie代码及步骤注释如下#1.登录去获取cookie#1.创建一个CookieJar的对象来保存cookiecookiejar=CookieJar()#2.使用cookiejar创建一个HttpCOOKIEProcesser对象handler=req...原创 2020-03-30 15:28:50 · 464 阅读 · 0 评论 -
【Python爬虫历程】使用Cookie来模拟登陆
前面讲了cookie的概念,现在来实战操作一下:原创 2020-03-29 10:11:31 · 823 阅读 · 0 评论 -
【Python爬虫历程】Cookie的解释
1.什么是cookie:Cookie,有时也用其复数形式Cookies。类型为“小型文本文件”,是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为...原创 2020-03-28 20:09:18 · 683 阅读 · 0 评论 -
【Python爬虫历程】ProxyHandler实现代理IP以及一些问题
首先说一下为什么要使用ProxyHandler处理器来设置代理,还是为了避免反爬虫机制 识别爬虫程序来不提供数据。很多网站会检测 某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数 多的不像正常人去访问,就会判别为爬虫程序并且禁止这个IP的访问。所以我们需要设置一些代理服务器,过段时间可以换一下代理IP,这样可以爬虫程序的正常运行。urllib库中通过ProxyHan...原创 2020-03-28 19:12:14 · 1484 阅读 · 0 评论 -
【Python爬虫历程】简单爬虫实战练习1
request.Request类:如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现。比如要增加一个User-Agent,示例代码如下:```python from urllib import requestheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap...原创 2020-03-28 15:38:40 · 314 阅读 · 0 评论 -
【Python爬虫历程】urllib库之URL解析函数urlparse和分割函数urlsplit
如果想要对url的各个部分进行分割提取出来,就需要urlparse和urlsplit函数来处理前面讲到url的组成部分,附一下链接https://blog.youkuaiyun.com/qq_27524749/article/details/105074167urlparse和urlsplit:有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlpa...原创 2020-03-27 18:01:02 · 1479 阅读 · 0 评论 -
【Python爬虫历程】urllib库之编码函数以及解码函数:
urlencode(编码)函数以及urlencode(解码)函数是位于urllib库下面的parse模块下面的函数,一个用来编码一个用来解码。一、urlencode在url中如果出现一些中文或者字符,url不识别的,则需要进行转换,使用urllib库中的urlencode函数,可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=2这样的字符串,比...原创 2020-03-26 17:38:57 · 973 阅读 · 0 评论 -
【Python爬虫历程】urllib库之urlretrieve函数详解
urlretrieve函数:urlretrieve() 方法直接将远程数据下载到本地。这个函数可以方便的将网页上的一个文件保存到本地。可以是网页的html文件、图片、视频等媒体文件。>>> help(urllib.urlretrieve)Help on function urlretrieve in module urllib:urlretrieve(url, ...原创 2020-03-26 17:08:07 · 8958 阅读 · 0 评论 -
【Python爬虫历程】urllib库详解以及urlopen函数
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urllib库是python内置的一个http请求库,不需要额外的安装。只需要关注请求的链接,参数,提供了强大的解析。urllib库提供了如下功能:网页请求 响应获取 代理和cookie设置 异常处理 URL解析爬虫所需要的功能...原创 2020-03-26 15:48:02 · 611 阅读 · 0 评论 -
【Python爬虫历程】HTTPS传输加密知识点
HTTP请求都是明文传输的,所谓的明文指的是没有经过加密的信息,如果HTTP请求被黑客拦截,并且里面含有银行卡密码等敏感数据的话,会非常危险。为了解决这个问题,Netscape 公司制定了HTTPS协议,HTTPS可以将数据加密传输,也就是传输的是密文,即便黑客在传输过程中拦截到数据也无法破译,这就保证了网络通信的安全。我们首先要知道一些密码学的知识。明文: 明文指的是未...原创 2020-03-25 17:21:10 · 592 阅读 · 2 评论 -
【Python爬虫历程】HTTP协议详解
什么是http和https协议:http协议:超文本传输协议,全称是HyperText Transfer Protocol,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 http是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。这个...原创 2020-03-25 16:48:17 · 320 阅读 · 0 评论 -
【Python爬虫历程】URL详解
如果想要爬虫,首先就得了解URLURL是`Uniform Resource Locator`的简写,统一资源定位符。 一个URL由以下几部分组成:scheme://host:port/path/?query-string=xxx#anchor-**scheme**:代表的是访问的协议,一般为`http`或者`https`以及`ftp`等。-**host**:主机名,域名,比如`ww...原创 2020-03-24 16:35:53 · 1039 阅读 · 0 评论