【爬虫一】python爬虫基础合集一

冷凝娇

已于 2024-12-17 11:02:49 修改

阅读量708

点赞数 2

文章标签：爬虫 python 开发语言

于 2024-12-16 11:45:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ak739105231/article/details/144500070

版权

【爬虫一】python爬虫基础合集一

1. 网络请求了解

1.1. 请求的类型

1. get
2. post
3. put
4. delete
5. head

1.2. 网络请求协议

http：超文本传输协议
https:安全超文本传输协议

网络协议之基础

1.3. 网络请求过程简单图解

在这里插入图片描述

1.4. 网络请求Headers(其中的关键字释义)：请求头、响应头

Accept:文本的格式
Accept-Encoding:编码格式
Connection:长连接、短连接
Cookie:验证用的
Host:域名
Referer:来源
User-Agent:浏览器和用户信息

请求头、响应头、请求方式

2. 网络爬虫的基本工作节点

 1. 确认你需要爬取的URL
 2. 使用python代码发送请求获取数据
 3. 解析获取到的数据（精确数据）
 	（1）找到新的目标回到第一步、二步、三步（自动化）
 4. 数据持久化
 
 上面4步所涉及模块及知识点：
 python3:urlib.request、request(第三方)、数据解析：xpath  bs4  数据存储

2.1. 了解简单网络请求获取响应数据的过程所涉及要点

import urllib.request
import urllib.parse
import string

# 关键点1：python不支持中文，需要进行转义，涉及：urllib.parse.quote、string
# python:是解释性语言;解析器只支持 ascii 0- 127 不支持中文
url = 'http://www.baidu.com/s?wd='
name = '美女'
final_url = url + name
# 转义后的url:
url_end = urllib.parse.quote(final_url, safe=string.printable)
res =  urllib.request.urlopen(url_end)
# 关键点2：获得请求的响应response，是一个对象；需要read()后，编码decode("utf-8");
# 关键点3：写入文件with open() as f, 连接上下文
with open('test2.html', 'w', encoding='utf-8') as f:
	f.write(res.read().decode('utf-8'))

博客等级

码龄8年

358
原创

581
点赞

2242
收藏

416
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: 测试技术汇总

最新评论

Jenkins在windows环境下的下载与安装
蝴蝶与花786: 按照步骤操作的，但是http://127.0.0.1:8580/jenkins访问不了怎么办
【爬虫一】python爬虫基础合集一
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
python:Socket编程(五):基于udp协议编程
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
Linux系统命令（三）系统状态命令：ifconfig、uname、uptime、free、who、last、history、sosreport
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
python:Socket编程（三）：tcp三次握手四次挥手（简单举例编程：服务器、客户端）
优快云-Ada助手: 如果一个服务部署在一组容器上运行，出现问题时，运维会做哪些快速诊断？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

冷凝娇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。