Python爬虫学习第一天---爬虫基础

原创已于 2022-07-08 14:49:57 修改 · 1.8k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

于 2022-04-07 14:58:47 首次发布

python之爬虫学习专栏收录该内容

13 篇文章

订阅专栏

本文深入浅出讲解了Python爬虫的基本概念、作用及分类，包括通用爬虫、聚焦爬虫、数据采集与测试、自动登录等。还介绍了HTTP协议、urllib2的使用技巧和常见状态码，以及如何设置User-Agent以避免被识别为爬虫。

Python爬虫基础

一、爬虫的概念

简单说法：模拟浏览器，发送请求，获取响应。

网络爬虫：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，模拟客户端自动发送网络请求，接收请求响应，自动地抓取万维网信息的程序或者脚本。

原则上,只要是客户端(浏览器)能做的事情，爬虫都能够做。
爬虫也只能获取客户端(浏览器)所展示出来的数据。

二、爬虫的作用

搜索引擎、采集数据、广告过滤等，Python爬虫还可以用于数据分析，在数据的抓取方面可以作用巨大！

1、数据采集

例如，抓取微博评论、美食点评、网站招聘信息、租房信息、新闻等等。

2、软件测试

爬虫之自动化测试，虫师等。

3、自动登录、抢票

4、网站投票

5、网站安全

短信轰炸、漏洞扫描。

6、数据收集和数据分析

三、爬虫的分类

1、根据被爬取网站的数量不同，可以分为

通用爬虫，如搜索引擎
聚焦爬虫，如12306抢票，或专门抓取某一个（某一类）网站数据

2、根据是否以获取数据为目的，可以分为

功能性爬虫，给你喜欢的明星投票、点赞
数据增量爬虫，比如招聘信息

3、根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为

基于url地址变化、内容也随之变化的数据增量爬虫
url地址不变、内容变化的数据增量爬虫

四、爬虫的流程

调度器：

主调度程序主要是管理上图中其余几个模块的，然后循环的执行这几个模块进行爬取信息，直到条件达到（爬取够一定数量）跳出循环。

URL管理器：

每爬取一个网页的有用信息后，并把有用的URL爬取下来放入URL管理器中，等下次循环的爬取可以直接从这个管理器中获取URL。

网页下载器：

通过网页下载模块下载后，存储指定对象中，例如urllib2、scrapy的middlewares中的下载器等。

解析器：

解析器的功能是用来解析下载下来的网页，例如BeautifulSoup，scrapy的解析器、selenium等，根据html的标签爬取我们想要的信息。

应用：

最后就可以把解释器解释出来的数据写入相应的文件中，提供一定的作用。例如制作表格，数据分析，抢票等。

五、http协议

1、http以及https的概念和区别

HTTPS比HTTP更安全，但是性能更低

HTTP：超文本传输协议，默认端口号是80
超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件。
传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容。
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
SSL对传输的内容（超文本，也就是请求体或响应体）进行加密。
可以打开浏览器访问一个url，右键检查，点击net work，点选一个url，查看http协议的形式

2. 爬虫特别关注的请求头和响应头

（1）特别关注的请求头字段

http请求的形式如上图所示，爬虫特别关注以下几个请求头字段：

（1） Host (主机和端口号)
Host：对应网址URL中的Web名称和端口号，用于指定被请求资源的Internet主机和端口号，通常属于URL的一部分。
（2） Connection (链接类型)
Connection：表示客户端与服务连接类型
Client 发起一个包含 Connection:keep-alive 的请求，HTTP/1.1使用 keep-alive 为默认值。

Server收到请求后：
如果 Server 支持 keep-alive，回复一个包含 Connection:keep-alive 的响应，不关闭连接；
如果 Server 不支持 keep-alive，回复一个包含 Connection:close 的响应，关闭连接。
如果client收到包含 Connection:keep-alive 的响应，向同一个连接发送下一个请求，直到一方主动关闭连接。
keep-alive在很多情况下能够重用连接，减少资源消耗，缩短响应时间，比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件)，不需要每次都去请求建立连接。
（3） Upgrade-Insecure-Requests (升级为HTTPS请求)
Upgrade-Insecure-Requests：升级不安全的请求，意思是会在加载 http 资源时自动替换成 https 请求，让浏览器不再显示https页面中的http请求警报。
HTTPS 是以安全为目标的 HTTP 通道，所以在 HTTPS 承载的页面上不允许出现 HTTP 请求，一旦出现就是提示或报错。
（4） User-Agent (浏览器名称)
User-Agent：是客户浏览器的名称，以后会详细讲。
（5） Accept (传输文件类型)
Accept：指浏览器或其他客户端可以接受的MIME（Multipurpose Internet Mail Extensions（多用途互联网邮件扩展））文件类型，服务器可以根据它判断并返回适当的文件格式。
举例：
Accept: */*：表示什么都可以接收。
Accept：image/gif：表明客户端希望接受GIF图像格式的资源；
Accept：text/html：表明客户端希望接受html文本。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8：表示浏览器支持的 MIME 类型分别是 html文本、xhtml和xml文档、所有的图像格式资源。
q是权重系数，范围 0 =< q <= 1，q 值越大，请求越倾向于获得其“;”之前的类型表示的内容。若没有指定q值，则默认为1，按从左到右排序顺序；若被赋值为0，则用于表示浏览器不接受此内容类型。
Text：用于标准化地表示的文本信息，文本消息可以是多种字符集和或者多种格式的；Application：用于传输应用程序数据或者二进制数据。详细请点击
（6） Referer (页面跳转处)
Referer：表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站来的等。
有时候遇到下载某网站图片，需要对应的referer，否则无法下载图片，那是因为人家做了防盗链，原理就是根据referer去判断是否是本网站的地址，如果不是，则拒绝，如果是，就可以下载；
（7） Accept-Encoding（文件编解码格式）
Accept-Encoding：指出浏览器可以接受的编码方式。编码方式不同于文件格式，它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码，然后再检查文件格式，许多情形下这可以减少大量的下载时间。
举例：Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
如果有多个Encoding同时匹配, 按照q值顺序排列，本例中按顺序支持 gzip, identity压缩编码，支持gzip的浏览器会返回经过gzip编码的HTML页面。如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。
（8） Accept-Language（语言种类）
Accept-Langeuage：指出浏览器可以接受的语言种类，如en或en-us指英语，zh或者zh-cn指中文，当服务器能够提供一种以上的语言版本时要用到。
（9） Accept-Charset（字符编码）
Accept-Charset：指出浏览器可以接受的字符编码。
举例：Accept-Charset:iso-8859-1,gb2312,utf-8

ISO8859-1：通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符，英文浏览器的默认值是ISO-8859-1.
gb2312：标准简体中文字符集;
utf-8：UNICODE 的一种变长字符编码，可以解决多种语言文本显示问题，从而实现应用国际化和本地化。

如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。
（10） Cookie （Cookie）
Cookie：浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体，它可以记载和服务器相关的用户信息，也可以用来实现会话功能，以后会详细讲。
（11） Content-Type (POST数据类型)
Content-Type：POST请求里用来表示的内容类型。
举例：Content-Type = Text/XML; charset=gb2312：
指明该请求的消息体中包含的是纯文本的XML类型的数据，字符编码采用“gb2312”。

cookie和session
服务器和客户端的交互仅限于请求/响应过程，结束之后便断开，在下一次请求时，服务器会认为新的客户端。
为了维护他们之间的链接，让服务器知道这是前一个用户发送的请求，必须在一个地方保存客户端的信息。
Cookie：通过在客户端记录的信息确定用户的身份。
Session：通过在服务器端记录的信息确定用户的身份。

（2）特别关注的响应头字段

http响应的形式如上图所示，爬虫只关注一个响应头字段

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存,有的网站不会强制设置cookie）

（3）HTTP请求方法

序号方法描述
1 GET 请求指定的页面信息，并返回实体主体。
2 HEAD 类似于get请求，只不过返回的响应中没有具体的内容，用于获取报头
3 POST 向指定资源提交数据进行处理请求（例如提交表单或者上传文件），数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
4 PUT 从客户端向服务器传送的数据取代指定的文档的内容。
5 DELETE 请求服务器删除指定的页面。
6 CONNECT HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
7 OPTIONS 允许客户端查看服务器的性能。
8 TRACE 回显服务器收到的请求，主要用于测试或诊断。

3、常见的响应状态码

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

我们在学习web知识的时候就已经学过了状态码的相关知识，我们知道这是服务器给我的相关反馈，我们在学习的时候就被教育说应该将真实情况反馈给客户端，但是在爬虫中，可能该站点的开发人员或者运维人员为了阻止数据被爬虫轻易获取，可能在状态码上做手脚，也就是说返回的状态码并不一定就是真实情况，比如:服务器已经识别出你是爬虫，但是为了让你疏忽大意，所以照样返回状态码200，但是响应体重并没有数据。

network中的response抓包得到的源码才是判断依据，elements中的只是通过渲染后的所有页面信息，不能作为判断依据。

所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准。

4、浏览器的运行原理

（1）http请求的过程

浏览器在拿到域名对应的ip后，先向地址栏中的url发起请求，并获取响应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

注意:

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，是因为爬虫不具备渲染的能力（当然后续课程中我们会借助其它工具或包来帮助爬虫对响应内容进行渲染）

浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果
所以在爬虫中，需要以发送请求的一个url地址对应的响应为准来进行数据的提取

六、urllib2

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，先学习urllib2。
urllib2模块直接导入就可以用，在python3中urllib2被改为urllib.request

开始爬虫需要准备的一些工具

（1）下载Fiddeler抓包工具，百度直接下载安装就可以（抓包）
（2）下载chrome浏览器代理插件 Proxy-SwitchyOmega（代理）
（3）下载chrome浏览器插件XPath（解析HTML）
（4）工具网站：
　http://www.json.cn/ (json解析网站)
　　　　 http://tool.chinaz.com/tools/urlencode.aspx （url编码解码网站）

1、先写个简单的爬虫百度页面

urlopen
# _*_ coding:utf-8 _*_
import urllib2
#向指定的url地址发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen('http://www.baidu.com/')
#服务器返回的类文件对象支持python文件对象的操作方法
#read()方法就是读取文件里的全部内容，返回字符串
html = response.read()
print html

urllib2默认的User-Agent是Python-urllib/2.7,容易被检查到是爬虫，所以我们要构造一个请求对象，要用到request方法。

2、模拟浏览器访问

浏览器访问时通过抓包工具获得的headers信息如下：
GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Accept-Language: zh,zh-CN;q=0.8,ar;q=0.6,zh-TW;q=0.4
Cookie: BAIDUID=AE4D1DA6B2D6689BB8C557B3436893E3:FG=1; BIDUPSID=AE4D1DA6B2D6689BB8C557B3436893E3; PSTM=1501466227; BD_CK_SAM=1; PSINO=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BD_HOME=0; H_PS_PSSID=1420_25548_21080_20929; BD_UPN=12314353

我们要设置User-Agent模仿浏览器去访问数据

# _*_ coding:utf-8 _*_
import urllib2
# User-Agent是爬虫与反爬虫的第一步
ua_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
# 通过urllib2.Request()方法构造一个请求对象
request = urllib2.Request('http://www.baidu.com/',headers=ua_headers)

#向指定的url地址发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen(request)

# 服务器返回的类文件对象支持python文件对象的操作方法
# read()方法就是读取文件里的全部内容，返回字符串
html = response.read()

print html
Request总共三个参数，除了必须要有url参数，还有下面两个：
data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。

3、response的常用方法

# _*_ coding:utf-8 _*_
import urllib2

# User-Agent是爬虫与反爬虫的第一步
ua_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
# 通过urllib2.Request()方法构造一个请求对象
request = urllib2.Request('http://www.baidu.com/',headers=ua_headers)

#向指定的url地址发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen(request)

# 服务器返回的类文件对象支持python文件对象的操作方法
# read()方法就是读取文件里的全部内容，返回字符串
html = response.read()

# 返回HTTP的响应吗，成功返回200,4服务器页面出错，5服务器问题
print response.getcode() #200

# 返回数据的实际url,防止重定向
print response.geturl() #https://www.baidu.com/

# 返回服务器响应的HTTP报头
print response.info()

# print html

4、随机选择一个Use-Agent

为了防止封IP，先生成一个user-agent列表，然后从中随机选择一个
# _*_ coding:utf-8 _*_
import urllib2
import random

url = 'http:/www.baidu.com/'

# 可以试User-Agent列表，也可以是代理列表
ua_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

# 在User-Agent列表中随机选择一个User-Agent
user_agent = random.choice(ua_list)

# 构造一个请求
request = urllib2.Request(url)

# add_header()方法添加/修改一个HTTP报头
request.add_header('User-Agent',user_agent)

#get_header()获取一个已有的HTTP报头的值,注意只能第一个字母大写，后面的要小写
print request.get_header('User-agent')

5、urllib和urllib2的主要区别

urllib和urllib2都是接受URL请求的相关模块，但是提供了不同的功能，最显著的区别如下：
（1）urllib仅可以接受URL，不能创建，设置headers的request类实例；
（2）但是urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2则没有（这是urllib和urllib2经常一起使用的主要原因）
（3）编码工作使用urllib的urlencode()函数，帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串，解码工作可以使用urllib的unquote()

函数
urllib.encode()的使用
urlencode（）里面必须是字典类型
# _*_ coding:utf-8 _*_
import urllib
dic = {'derek':'编码'}
print urllib.urlencode(dic) #derek=%E7%BC%96%E7%A0%81
m = urllib.urlencode(dic)
print urllib.unquote(m) #derek=编码
　　一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中。
GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索知乎：https://www.baidu.com/s?wd=知乎
发现GEThttps://www.baidu.com/s?wd=%E7%9F%A5%E4%B9%8E，后面是一个长长的字符串,urldecode后发现就是知乎
用urllib.urlencode()进行转码，然后组合url
# _*_ coding:utf-8 _*_
import urllib,urllib2

url = 'http://www.baidu.com/s'
headers = {'UserAgent':'Mozilla'}
keyword = raw_input('请输入关键字:')
wd = urllib.urlencode({'wd':keyword})
fullurl = url + '?' + wd
print fullurl
request = urllib2.Request(fullurl,headers=headers)
response = urllib2.urlopen(request)
print response.read()