python爬虫入门

最新推荐文章于 2024-12-22 14:05:59 发布

盗梦骇客

最新推荐文章于 2024-12-22 14:05:59 发布

阅读量401

点赞数 1

分类专栏：爬虫学习笔记文章标签： python 爬虫开发语言

本文链接：https://blog.youkuaiyun.com/qq_51653817/article/details/125680096

版权

爬虫学习笔记专栏收录该内容

3 篇文章

订阅专栏

爬虫人门

一、什么是robots.txt协议

君子协议。规定了网站中那些数据不可以被爬取和可以被爬取

1、怎么打开robots.txt协议

在浏览器中输入

查看那些是否允许爬取

二、http协议

概念：服务器与客户端进行数据交互的一种形式

1、常用的请求头信息

user-Agent：请求载体的身份标识
在这里插入图片描述

Connection:请求完毕后，是断开连接还是保持连接

2、常用响应头信息

Content-Type:服务器响应回客户端数据类型

3、https协议

https协议：安全的超文本传输协议

4、加密方式（了解）

对称秘钥加密
非对称秘钥加密
证书秘钥加密

三、requests模块

urllib网络请求模块

requests网络请求模块

requests模块：python中原生的一款基于网络请求模块，功能强大、简单便捷、效率高
作用：模拟浏览器发送请求

1、如何使用：（requests模块的使用流程）

指定url（url指定是网址，如图：）
基于requests模块发送请求
获取响应数据
持久化存储

2、环境安装

pip install requests

3、实战编码

爬取搜狗首页的页面数据

代码如下：

import requests

# 1:指定url
url = "https://www.sogou.com/"

# 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)

# 3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
# 用print验证
# print(page_text)

# 4：持久化存储
# open() 函数的作用是打开一个文件71
# E:/Python/Python代码/爬虫/搜狗/sogou.html指定位置保存，W是写入模式
# w是写模式，r是读模式
# 格式：with open('文件路径','读写方式',编码) as 赋值变量:
with open('E:/Python/Python代码/爬虫/搜狗/sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    # 用write()方法向fp写入数据
print('爬取成功！！！')