深度解析：Python 爬取百度贴吧数据，获取热门帖子信息！

来自星星的坤

于 2025-03-12 17:45:01 发布

阅读量334

点赞数 4

文章标签： python 百度开发语言

本文链接：https://blog.youkuaiyun.com/2301_76849350/article/details/146210832

版权

在大数据时代，爬虫技术成为了数据分析的重要手段之一。作为一名程序员，如何高效地爬取和分析数据是我们必须掌握的技能。本篇博客将详细介绍如何使用 Python 爬取百度贴吧的热门帖子信息，并将其保存到 Excel 进行进一步的数据分析。

1. 爬取目标

我们希望获取百度贴吧的推荐论坛信息，包括：

论坛名称
帖子总数
人气数（关注人数）

最终，我们会将这些数据存入 Excel，以便后续分析。

2. 代码实现

2.1 引入所需库

import requests
import time
import re
import json
import pandas as pd

2.2 发送请求

首先，我们需要构造请求，访问百度贴吧的推荐论坛页面：

url = "https://tieba.baidu.com/"
headers = {
    "cookie": "你的cookie信息",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...",
    "referer": "https://cn.bing.com/"
}

response = requests.get(url, headers=headers)
html_text = response.text

2.3 解析总页数

贴吧的推荐论坛信息分页显示，我们需要解析总页数：

match = re.search(r'<span[^>]*id="spanPageNum"[^>]*class="page_num"[^>]*>(\d+)\/(\d+)<\/span>', html_text)
if match:
    total_pages = int(match.group(2))
    print(f"总页数: {total_pages}")

2.4 爬取所有页面数据

接下来，我们遍历所有页面，提取论坛信息：

forum_name_list = []
thread_count_list = []
member_count_list = []

for pn in range(1, total_pages + 1):
    url2 = f"https://tieba.baidu.com/f/index/rcmdForum?pn={pn}&rn=12"
    time.sleep(2)  # 避免请求过快被封禁
    res = requests.get(url2, headers=headers)
    
    if res.status_code == 200:
        parsed_json = json.loads(res.text)
        forum_info = parsed_json['data']["forum_info"]
        
        for forum in forum_info:
            forum_name_list.append(forum["forum_name"])
            thread_count_list.append(forum["thread_count"])
            member_count_list.append(forum["member_count"])

2.5 数据存入 Excel

data = {'标题': forum_name_list, '帖子数': thread_count_list, '人气数': member_count_list}
df = pd.DataFrame(data)
df.to_excel("baidustick.xlsx", index=False)
print("数据已保存到 Excel 文件！")