Python爬虫学习(一）：爬取一个网页并打印

最新推荐文章于 2024-07-15 10:36:04 发布

原创最新推荐文章于 2024-07-15 10:36:04 发布 · 4.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #数据挖掘

爬虫同时被 2 个专栏收录

3 篇文章

订阅专栏

数据处理

2 篇文章

订阅专栏

本文介绍如何使用Python的requests库进行简单的网页爬取操作。通过安装并配置requests库，实现对百度首页的爬取，并处理可能出现的乱码问题。此外，还介绍了如何爬取图片或视频等二进制文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫一般依赖于requests库，首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令：

pip install requests / pip install requests

然后在自己的环境中导入requests库看会不会报错。

import requests

库安装没有问题后开始使用requests库进行第一个Python爬虫。

目的爬取百度页面，并且将其打印出来，并消除其打印出来时可能会发生的乱码。以下给出代码：

import requests
url = 'https://www.baidu.com'
try:
    r = requests.get(url)
    print(r.status_code)  #HTTP请求的返回状态，200表示连接成功，404表示失败
    r.raise_for_status()  ##如果状态码返回不是200，抛出HTTPRError错误
    r.encoding = r.apparent_encoding   #防止乱码
    print(r.text)
except:
    print("爬取失败")  #异常处理