10分钟教你Python爬虫（下）--爬虫的基本模块与简单的实战

最新推荐文章于 2025-09-26 17:45:40 发布

原创

最新推荐文章于 2025-09-26 17:45:40 发布 · 517 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#java #python #大数据 #人工智能

本文介绍了Python爬虫的基础模块requests和BeautifulSoup的使用，包括网络请求、HTML解析，以及如何通过它们进行简单的实战。文章通过实例演示了如何安装模块，以及如何获取网页状态码、解析HTML、提取所需内容。最后，文章展示了如何进行翻页操作和数据处理，适合初学者入门。

本文来源于公众号【程序猿声】，作者向柯玮

前言

各位看客老爷们，新年好。小玮又来啦。这次给大家带来的是爬虫系列的第二课—爬虫的基本模块与简单的实战。

说到爬虫的基本模块，不知道大家之前有没有了解过呢。如果你之前没有了解过，给小玮一个机会带您慢慢了解它，如果你之前了解过，也请给小玮一个机会帮助您再次巩固。

下面让我来慢慢细说。

准备

在这节课上，我们会主要了解两个模块，requests和BeautifulSoup。

在最开始呢，肯定是大家要下载安装一下这两个模块。当然如果你按照很久以前的一篇推文里面安装的是anaconda的话，你就不需要下载，因为早就已经安装好了。

下面我介绍一下直接安装python的人的安装方法。打开cmd控制台，输入pip install requests，mac用户呢，输入pip3 install requests等待下载结束就可以了。Beautifulsoup的安装会在后面给出。

模块介绍

下面分别来介绍一下这两个模块。

requests

requests是干什么用的呢。它是用作进行网络请求的模块。在这里给大家举一个例子，大家可以试着去输出一下下面的代码，看看到底是什么。

import requests
req=requests.get('http://docs.python-requests.org/en/master')
print（type(req)）
print(req.status_code)
print(req.encoding)
print(req.cookies)

这里的status是状态码，encoding是编码方式。在这里简单的介绍一下常见的状态码。

那么最后的cookies是啥呢？

其实就是一个记录你在这个网页中的活动的东西，可能这么说并不是很形象，可以这样理解，在抖音等APP上，你有没有发现经常看的一些种类的视频总是不断的

最低0.47元/天解锁文章