爬虫高级应用01——准备知识和urlib库

本文介绍了HTTP的基本原理,包括URI和URL、超文本、HTTP和HTTPS,以及HTTP请求过程。接着讲解了Python的urllib库,如何设置超时时间、请求头和参数,以及异常处理。最后探讨了使用爬虫下载图片的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫就是获取网页并提取和保存信息的自动化程序

一.HTTP
1.HTTP基本原理

URI和URL

URI (Uniform Resource Identifier) 统一资源标志符
URL(Universal Resource Locator) 统一资源定位符
URL是URI的子集, URI还包括⼀一个⼦子类URN (Universal Resource Name) 统⼀一资源名称,URN
只命名资源不不指定如何定位资源。

超文本 (hypertext)
网页源代码,html代码
查看源代码工具和方法
HTTP和HTTPS
HTTP (Hyper Text Transfer Protocol)
超文本传输协议
HTTPS (Hyper Text Transfer Protocol over Secure Socket Layer)
HTTP加入SSL层,传输内容通过SSL加密
安全通道保证数据传输安全
确认网站真实性

2.HTTP请求过程

用浏览器器开发者⼯工具观察网络请求过程
请求
请求方法 (Request Method)
GET请求的参数直接在URL⾥里里,最多只有1024字节
POST请求数据⼀一般通过表单提交,不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清平乐的技术博客

你的鼓励是我最大创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值