爬虫人门
一、什么是robots.txt协议
君子协议。规定了网站中那些数据不可以被爬取和可以被爬取
1、怎么打开robots.txt协议
在浏览器中输入

查看那些是否允许爬取

二、http协议
概念:服务器与客户端进行数据交互的一种形式
1、常用的请求头信息
user-Agent:请求载体的身份标识
Connection:请求完毕后,是断开连接还是保持连接
2、常用响应头信息
Content-Type:服务器响应回客户端数据类型
3、https协议
https协议:安全的超文本传输协议
4、加密方式(了解)
-
对称秘钥加密
-
非对称秘钥加密
-
证书秘钥加密
三、requests模块
urllib网络请求模块
requests网络请求模块
-
requests模块:python中原生的一款基于网络请求模块,功能强大、简单便捷、效率高
-
作用:模拟浏览器发送请求
1、如何使用:(requests模块的使用流程)
-
指定url(url指定是网址,如图:)
-
基于requests模块发送请求
-
获取响应数据
-
持久化存储
2、环境安装
pip install requests
3、实战编码
- 爬取搜狗首页的页面数据
代码如下:
import requests
# 1:指定url
url = "https://www.sogou.com/"
# 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
# 3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
# 用print验证
# print(page_text)
# 4:持久化存储
# open() 函数的作用是打开一个文件71
# E:/Python/Python代码/爬虫/搜狗/sogou.html指定位置保存,W是写入模式
# w是写模式,r是读模式
# 格式:with open('文件路径','读写方式',编码) as 赋值变量:
with open('E:/Python/Python代码/爬虫/搜狗/sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
# 用write()方法向fp写入数据
print('爬取成功!!!')