python爬取论坛的数据，包括标题，作者，点击量和回复量

最新推荐文章于 2025-11-05 10:09:14 发布

原创最新推荐文章于 2025-11-05 10:09:14 发布 · 4.5k 阅读

16 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍如何使用Python爬虫抓取论坛的标题、作者、点击量和回复量信息。首先，分别获取标题和作者以及点击量和回复量数据；接着，进行数据清洗，将数据整理成DataFrame格式；然后，通过添加关键列，合并两个数据集；最后，删除不必要的关键列并以CSV格式保存文件。

部署运行你感兴趣的模型镜像

1.数据的爬取和清洗

（1）标题和作者的获取以及数据整理

from bs4 import BeautifulSoup
data_all =[]
for i in range(0,10):
    url = 'http://bbs.tianya.cn/list-no02-1.shtml'
    douban_data = requests.get(url)
    soup = BeautifulSoup(douban_data.text,'lxml')
    titles = soup.select('tr.bg td.td-title a')
    author = soup.select('tr.bg td a.author')
    
    for title,price in zip(titles,author):
         data = {'title':title.get_text().strip().split()[0],
                 'author':price.get_text().strip()}   
#         print(data)
         data_all.append(data)
len(data_all)

（2）点击量和回复量的获取（这里应该循环获取，因为每一个单页的网址不一样）

import requests
from bs4 import BeautifulSoup
url = 'http://bbs.tianya.cn/list.jsp?item=no02&nextid=1556923587000'
douban_data = requests.get(url)
soup = BeautifulSoup(douban_data.text,'lxml')
a_all = soup.select('td')

（3）点击量和回复量数据的整理

import pandas as pd
j=2
k=3
data_all1 = []
for click in zip(a_all):
#    print(a_all[3])
    if j<=400 and k<= 400:
        a_data = {'click':a_all[j].get_text().strip(),
                 'response':a_all[k].get_text().strip()}
#        print(a_all[k].get_text().strip())
        j = j+5
        k = j+1
        data_all1.append(a_data)

（4）两个数据的合并

①首先将list格式的数据转化为DataFrame格式

1)import pandas as pd
data_pd1 = pd.DataFrame(data1,columns = ['author','title'])
2)import pandas as pd
data_pd2 = pd.DataFrame(data3,columns = ['click','response'])

②为合并添加一组关键列

#生成一组不重复的随机数，用于作为两个DataFrame合并的key
import random
listww = random.sample(range(0,400),400)

③为两组list添加关键列

data_s['key'] = listww
data_s
2)data_f = pd.DataFrame(data_f,columns = ['click','response','key'])
data_f['key'] = listww
data_ft

④合并

result = pd.merge(data_s,data_f,on='key')

⑤删除关键列

re = result.drop('key',axis=1)

（5）保存文件–格式为csv

re.to_csv('sqy.csv',index=False)

您可能感兴趣的与本文相关的镜像

Dify

AI应用

Agent编排

Dify 是一款开源的大语言模型（LLM）应用开发平台，它结合了后端即服务(Backend as a Service) 和LLMOps 的理念，让开发者能快速、高效地构建和部署生产级的生成式AI应用。它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈，并且提供了易用的界面和API，让技术和非技术人员都能参与到AI应用的开发过程中