Python爬虫获取tieba公开数据丨Python基础实战系列(3)

互联网阿星

于 2022-05-13 15:28:12 发布

阅读量1.3k

点赞数 9

文章标签： python 爬虫数据挖掘网络爬虫数据分析

本文链接：https://blog.youkuaiyun.com/m0_68103523/article/details/124752509

版权

本文介绍如何使用Python爬虫获取tieba的公开数据，包括判断页面类型、寻找URL规律、编写爬虫程序及其组成部分：请求、解析、保存数据函数。还讨论了爬虫程序的结构和随机休眠的必要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文末有福利！最新Python资料/学习指南>>戳我直达

前言

本节继续讲解 Python 爬虫实战案例
在这里插入图片描述
本节我们将使用面向对象的编程方法来编写程序。

话不多说，开练！

通过简单的分析可以得知，待获取的tieba页面属于静态网页，分析方法非常简单：

打开tieba，搜索“Python爬虫”，在出现的页面中复制任意一段信息，比如“爬虫需要 http 代理的原因”，然后点击右键选择查看源码，并使用 Ctrl+F 快捷键在源码页面搜索刚刚复制的数据，如下所示：

图1：静态网页分析判断

由上图可知，页面内的所有信息都包含在源码页中，数据并不需要从数据库另行加载，因此该页面属于静态页面。

接下来寻找要爬取页面的 URL 规律，搜索“Python爬虫”后，此时tieba第一页的的 url 如下所示：
在这里插入图片描述
点击第二页，其 url 信息如下：

点击第三页，url 信息如下：
在这里插入图片描述

重新点击第一页，url 信息如下：
在这里插入图片描述

如果还不确定，您可以继续多浏览几页。最后您发现 url 具有两个查询参数，分别是 kw 和 pn，并且 pn 参数具有规律性，如下所示：

第n页：pn=(n-1)*50

#参数params
pn=(page-1)*50
params={
   
         'kw':name,
         'pn':str(pn)
        }

url 地址可以简写为：
在这里插入图片描述

下面以类的形式编写爬虫程序，并在类下编写不同的功能函数，代码如下所示：

from urllib import request,parse
import time
import random
from ua_info import ua_list #使用自定义的ua池