Python爬虫学习(一):爬取一个网页并打印

本文介绍如何使用Python的requests库进行简单的网页爬取操作。通过安装并配置requests库,实现对百度首页的爬取,并处理可能出现的乱码问题。此外,还介绍了如何爬取图片或视频等二进制文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫一般依赖于requests库,首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令:

pip install requests   /    pip install requests

然后在自己的环境中导入requests库看会不会报错。

import requests

库安装没有问题后开始使用requests库进行第一个Python爬虫。

目的爬取百度页面,并且将其打印出来,并消除其打印出来时可能会发生的乱码。以下给出代码:

import requests
url = 'https://www.baidu.com'
try:
    r = requests.get(url)
    print(r.status_code)  #HTTP请求的返回状态,200表示连接成功,404表示失败
    r.raise_for_status()  ##如果状态码返回不是200,抛出HTTPRError错误
    r.encoding = r.apparent_encoding   #防止乱码
    print(r.text)
except:
    print("爬取失败")  #异常处理
r.encoding = r.apparent_encoding
其中r.encoding是从HTTP header中猜测的响应内容编码方式,而r.apparent_encoding是从内容中分析出的响应内容编码方式(备选编码方式)。
当要爬取某个视频或图片时以二进制的方式可以将其爬下来。
r.content是HTTP响应内容的二进制形式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值