爬虫的入门库urllib库,简单请求,简单应用

本文介绍如何使用Python的urllib.request模块抓取网页内容,通过实例演示了抓取百度首页的过程,包括读取响应、解析HTML、获取状态码、URL和HTTP头部信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from urllib.request import urlopen
#导入相应的库

#urllib.request和requests两者之间的差别,大体功能是一样的,具体用法,后面你自己感觉哪个适合自己

url ='http://www.baidu.com/'
#今天咱们爬取百度首页,是不是很傻,就是因为百度首页,没啥东西啊,拿简单的东西入手,给自己信心啊
response= urlopen(url)

info =response.read()
#读取响应,返回的是bytes格式
print(info.decode())
#打印网页html,打印网站
print(response.getcode())
#打印响应
print(response.geturl())
#打印请求的实际网站,实际url网址,防止重定向
print(response.info())
#打印服务器的响应的http报头

打几行代码了解一下,它能得到什么,你不能光看看,还是你去打一打,代码没多少,但是你照着打完,你在看看打印出的结果,是不是有点信息了,从网站HTML,到返回状态码,到访问的网址HTTP,到什么头,

打开谷歌浏览器f12,Network看看你那个和什么一样啊!!!不动手永远不知道这个东西是啥?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值