python爬虫入门

爬虫人门

一、什么是robots.txt协议

君子协议。规定了网站中那些数据不可以被爬取和可以被爬取

1、怎么打开robots.txt协议

在浏览器中输入
在这里插入图片描述
查看那些是否允许爬取
在这里插入图片描述
二、http协议

概念:服务器与客户端进行数据交互的一种形式

1、常用的请求头信息

user-Agent:请求载体的身份标识
在这里插入图片描述

Connection:请求完毕后,是断开连接还是保持连接

2、常用响应头信息

Content-Type:服务器响应回客户端数据类型

3、https协议

https协议:安全的超文本传输协议

4、加密方式(了解)

  • 对称秘钥加密

  • 非对称秘钥加密

  • 证书秘钥加密

三、requests模块

urllib网络请求模块

requests网络请求模块

  • requests模块:python中原生的一款基于网络请求模块,功能强大、简单便捷、效率高

  • 作用:模拟浏览器发送请求

1、如何使用:(requests模块的使用流程)

  • 指定url(url指定是网址,如图:)
    在这里插入图片描述

  • 基于requests模块发送请求

  • 获取响应数据

  • 持久化存储

2、环境安装

pip install requests

3、实战编码

  • 爬取搜狗首页的页面数据

代码如下:

import requests

# 1:指定url
url = "https://www.sogou.com/"

# 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)

# 3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
# 用print验证
# print(page_text)

# 4:持久化存储
# open() 函数的作用是打开一个文件71
# E:/Python/Python代码/爬虫/搜狗/sogou.html指定位置保存,W是写入模式
# w是写模式,r是读模式
# 格式:with open('文件路径','读写方式',编码) as 赋值变量:
with open('E:/Python/Python代码/爬虫/搜狗/sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    # 用write()方法向fp写入数据
print('爬取成功!!!')
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盗梦骇客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值