本文来源于公众号【程序猿声】,作者向柯玮

前言
各位看客老爷们,新年好。小玮又来啦。这次给大家带来的是爬虫系列的第二课—爬虫的基本模块与简单的实战。
说到爬虫的基本模块,不知道大家之前有没有了解过呢。如果你之前没有了解过,给小玮一个机会带您慢慢了解它,如果你之前了解过,也请给小玮一个机会帮助您再次巩固。
下面让我来慢慢细说。
准备
在这节课上,我们会主要了解两个模块,requests和BeautifulSoup。
在最开始呢,肯定是大家要下载安装一下这两个模块。当然如果你按照很久以前的一篇推文里面安装的是anaconda的话,你就不需要下载,因为早就已经安装好了。
下面我介绍一下直接安装python的人的安装方法。打开cmd控制台,输入pip install requests,mac用户呢,输入pip3 install requests等待下载结束就可以了。Beautifulsoup的安装会在后面给出。
模块介绍
下面分别来介绍一下这两个模块。
requests
requests是干什么用的呢。它是用作进行网络请求的模块。在这里给大家举一个例子,大家可以试着去输出一下下面的代码,看看到底是什么。
import requests
req=requests.get('http://docs.python-requests.org/en/master')
print(type(req))
print(req.status_code)
print(req.encoding)
print(req.cookies)
这里的status是状态码,encoding是编码方式。在这里简单的介绍一下常见的状态码。

那么最后的cookies是啥呢?
其实就是一个记录你在这个网页中的活动的东西,可能这么说并不是很形象,可以这样理解,在抖音等APP上,你有没有发现经常看的一些种类的视频总是不断的

本文介绍了Python爬虫的基础模块requests和BeautifulSoup的使用,包括网络请求、HTML解析,以及如何通过它们进行简单的实战。文章通过实例演示了如何安装模块,以及如何获取网页状态码、解析HTML、提取所需内容。最后,文章展示了如何进行翻页操作和数据处理,适合初学者入门。
最低0.47元/天 解锁文章
1296

被折叠的 条评论
为什么被折叠?



