爬虫:urllib基本库的使用

本文深入讲解Python的urllib模块,包括发送GET和POST请求的方法,处理URL,解析robots.txt文件,以及如何使用Request对象和Handler进行更高级的操作。同时,介绍了如何处理请求过程中可能遇到的异常。

urllib包含了request(打开和读取url), error(包含request引发的异常), parse(解析url), robotparser(解析robots.txt文件)四个用于处理URL的模块。

一.发送请求

1.urlopen()

使用urllib.request.urlopen()发送请求:

https://docs.python.org/3/library/urllib.request.html#urllib.request.urlopen

发送请求后得到HTTPResponse对象,调用HTTPResponse的相关方法和属性,可以获取相关信息:

https://docs.python.org/3/library/http.client.html#httpresponse-objects

代码示例:

# -*- coding:utf-8 -*-
from urllib import request, error, parse, robotparser
import socket

# get请求
url = 'https://wx.zsxq.com/dweb/#/login'  # 知识星球登录页
res = request.urlopen(url)  # 使用urllib.request模块,发送请求后得到HTTPResponse对象
web_server = res.getheader('Server')  # 查看运行知识星球的服务器类型
print(web_server)   # Tengine(详见http://tengine.taobao.org/)

# post请求
data = bytes(parse.urlencode({'data': '请求的数据'}), encoding='utf-8')  # 使用urllib.parse模块
try:
    res = request.urlopen('https://httpbin.org/post', data=data, timeout=0.01)  # 设置超时时间为0.01s
except error.URLError as e:  # 使用urllib.error模块
    if isinstance(e.reason, socket.timeout):
        print('超时')

2.Request

向urlopen()传递参数并不能构造一个完整的请求对象,所以有了Request Object对象:

https://docs.python.org/3/library/urllib.request.html#request-objects

要构造Request Object对象需要用到urllib.request.Request()方法:

https://docs.python.org/3/library/urllib.request.html#request-objects

代码示例:

# -*- coding:utf-8 -*-
from urllib import request, parse

# 使用urlopen()发起请求时,传入的参数并不能构造一个完整的请求,所以有了urllib.request.Request对象
url = 'https://httpbin.org/post'
data = bytes(parse.urlencode({'data': '请求数据'}), encoding='utf-8')
headers = {
    'Host': 'httpbin.org'
}
req = request.Request(url=url, data=data, headers=headers)
res = request.urlopen(req)
print(res.read().decode('utf-8'))

3.Handler

handler主要用于处理验证,代理 以及Cookies。

(1)验证

(2)代理

(3)Cookies

二.处理异常

三.解析链接

四.分析Robots协议

五.参考资料

[1]崔庆才,《Python3网络开发爬虫实战》

[2]Python官方文档urllib, https://docs.python.org/3/library/urllib.html

 

这个是完整源码 python实现 Django 【python毕业设计】基于Python的天气预报(天气预测分析)(Django+sklearn机器学习+selenium爬虫)可视化系统.zip 源码+论文+sql脚本 完整版 数据是mysql 本研究旨在开发一个基于Python的天气预报可视化系统,该系统结合了Django框架、sklearn机器学习和Selenium爬虫技术,实现对天气数据的收集、分析和可视化。首先,我们使用Selenium爬虫技术从多个天气数据网站实时抓取气象数据,包括温度、湿度、气压、风速等多项指标。这些数据经过清洗和预处理后本研究旨在开发一个基于Python的天气预报可视化系统,该系统结合了Django框架、sklearn机器学习和Selenium爬虫技术,实现对天气数据的收集、分析和可视化。首先,我们使用Selenium爬虫技术从多个天气数据网站实时抓取气象数据,包括温度、湿度、气压、风速等多项指标。这些数据经过清洗和预处理后,将其存储在后端数据中,以供后续分析。 其次,采用s,将其存储在后端数据中,以供后续分析。 其次,采用sklearn机器学习构建预测模型,通过时间序列分析和回归方法,对未来天气情况进行预测。我们利用以往的数据训练模型,以提高预测的准确性。通过交叉验证和超参数优化等技术手段,我们优化了模型性能,确保其在实际应用中的有效性和可靠性。 最后,基于Django框架开发前端展示系统,实现天气预报的可视化。用户可以通过友好的界面查询实时天气信息和未来几天内的天气预测。系统还提供多种图表类型,包括折线图和柱状图,帮助用户直观理解天气变化趋势。 本研究的成果为天气预报领域提供了一种新的技术解决方案,不仅增强了数据获取和处理的效率,还提升了用户体验。未来,该系统能够扩展至其他气象相关的应用场景,为大众提供更加准确和及时的气象服务。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值