【Python爬虫】urllib模块，User-agent

最新推荐文章于 2025-07-06 07:53:27 发布

原创

最新推荐文章于 2025-07-06 07:53:27 发布 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

通过 rullib模块 爬取html内容

文章目录

（1）urllib模块分类
（2）方法使用案例
（3）重构User-Agent

（1）urllib模块分类


# urllib.request：请求模块，用于打开和读取 URL；
# urllib.error：异常处理模块，捕获 urllib.error 抛出异常；
# urllib.parse：URL 解析，爬虫程序中用于处理 URL 地址；
# urllib.robotparser：解析 robots.txt 文件，判断目标站点哪些内容可爬，哪些不可以爬，但是用的很少。

（2）方法使用案例

主要方法：
urlopen（），
<1> 普通编码方式：


#目的：抓取您想要的网页，并将其保存至本地计算机
#步骤：

from urllib import request,parse

# 拼接 url 地址
url = 'http://www.baidu.com/s?wd={}'
want = input("请输入搜索内容：")
params = parse.quote(want)	#quote()实现url编码
full_url = url.format(params)

# 发送请求
#1 重构请求头
headers = {
   
   'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.9200'}