爬虫的入门库urllib库，简单请求，简单应用

最新推荐文章于 2025-11-09 19:15:19 发布

原创最新推荐文章于 2025-11-09 19:15:19 发布 · 238 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫的认知

Python的常见库使用同时被 3 个专栏收录

40 篇文章

订阅专栏

Python的爬虫使用案例

34 篇文章

订阅专栏

一只网络上的虫（爬虫实例）

31 篇文章

订阅专栏

本文介绍如何使用Python的urllib.request模块抓取网页内容，通过实例演示了抓取百度首页的过程，包括读取响应、解析HTML、获取状态码、URL和HTTP头部信息。

from urllib.request import urlopen
#导入相应的库

#urllib.request和requests两者之间的差别，大体功能是一样的，具体用法，后面你自己感觉哪个适合自己

url ='http://www.baidu.com/'
#今天咱们爬取百度首页，是不是很傻，就是因为百度首页，没啥东西啊，拿简单的东西入手，给自己信心啊
response= urlopen(url)

info =response.read()
#读取响应，返回的是bytes格式
print(info.decode())
#打印网页html,打印网站
print(response.getcode())
#打印响应
print(response.geturl())
#打印请求的实际网站，实际url网址，防止重定向
print(response.info())
#打印服务器的响应的http报头