如何使用 Python 3 中的 Requests 和 Beautiful Soup 处理 Web 数据

本文介绍了如何使用Python的Requests和BeautifulSoup库从网页中抓取数据,包括安装步骤、收集网页、处理HTML文本,以及通过类和ID定位特定标记的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

网络为我们提供了比我们能阅读和理解的更多数据,因此我们经常希望以编程方式处理这些信息,以便理解它。有时,网站创建者通过 .csv 或逗号分隔值文件或通过 API(应用程序编程接口)向我们提供这些数据。其他时候,我们需要自己从网络上收集文本。

本教程将介绍如何使用 Requests 和 Beautiful Soup Python 包来利用网页数据。Requests 模块允许您将 Python 程序与 Web 服务集成,而 Beautiful Soup 模块旨在快速完成屏幕抓取。使用 Python 交互式控制台和这两个库,我们将学习如何收集网页并处理其中可用的文本信息。

安装 Requests

让我们首先激活我们的 Python 3 编程环境。确保您位于环境所在的目录,并运行以下命令:

. my_env/bin/activate

为了处理网页,我们需要请求页面。Requests 库允许您以人类可读的方式在 Python 程序中使用 HTTP。

在激活我们的编程环境后,我们将使用 pip 安装 Requests:

pip install requests

安装 Requests 库时,您将收到以下输出:

Collecting requests
  Downloading requests-2.26.0-py2.py3-none-any.whl (88kB)
    100% |████████████████████████████████| 92kB 3.1MB/s 
...
Installing collected packages: chardet, urllib3, certifi, idna, requests
Successfully installed certifi-2017.4.17 chardet-3.0.4 idna-2.5 requests-2.26.0 urllib3-1.21.1

如果 Requests 已经安装,您将从终端窗口收到类似以下的反馈:

Requirement already satisfied
...

安装 Requests 到我们的编程环境后,我们可以继续安装下一个模块。

安装 Beautiful Soup

与安装 Requests 一样,我们将使用 pip 安装 Beautiful Soup。当前版本的 Beautiful Soup 4 可以使用以下命令安装:

pip install beautifulsoup4

运行此命令后,您应该会看到类似以下的输出:

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.10.0-py3-none-any.whl (97 kB)
     |████████████████████████████████| 97 kB 6.8 MB/s
Collecting soupsieve>1.2
  Downloading soupsieve-2.3.1-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.10.0 soupsieve-2.3.1

现在 Beautiful Soup 和 Requests 都已安装,我们可以继续了解如何使用这些库来抓取网站。

使用 Requests 收集网页

现在我们已经安装了要使用的两个 Python 库,我们可以熟悉

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张无忌打怪兽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值