python贴吧-python爬取贴吧帖子

编程大乐趣

于 2020-10-28 22:23:25 发布

阅读量1.2k

点赞数

本文介绍了如何使用Python2.7爬取百度贴吧的长篇连载帖子，并将其保存为本地TXT文件。通过分析网页源码，提取帖子标题、页数和内容，利用正则表达式去除HTML标签，最终实现内容的完整保存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、介绍

我们常遇到一些很长的贴吧连载帖子想存到本地再看

此文就是运用python爬取指定百度贴吧的帖子并存到本地满足需求

环境:python2.7

目标网页:【长篇连载】剑网3的正史和野史——从头开始讲剧情故事

源码存放:源码github

本文参考:静觅博客python实战系列

二、页面的抓取

目标网页网址为https://tieba.baidu.com/p/2196794546

满足可以选择是否只看楼主的抓取我们点一下只看楼主并点一下后页的链接来获取只看楼主和翻页的参数

1240

这时候可以看到只看楼主多出的参数 see_lz 和当前页的参数 pn

1240

接下来定义一个DEMO类开始获取整个网页

# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

class DEMO:

def __init__(self,baseUrl):

self.baseURL = baseUrl

def getPage(self):

url = baseURL

request = urllib2.Request(url)

response = urllib2.urlopen(request)

print response.read()

baseURL = 'https://tieba.baidu.com/p/2196794546?see_lz=1&pn=3'

demo = DEMO(baseURL)

demo.getPage()

运行结果:

1240

爬取网页代码成功后我们完善一下代码,将只看楼主和页码提为参数

def __init__(self,baseUrl,seeLZ):

self.baseURL = baseUrl

self.seeLZ = '?see_lz=' +str(seeLZ)

self.tool = Tool()

def getPage(self,pageNum):

try:

url = self.baseURL+self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request)

return response.read().decode('utf-8')

except urllib2.URLError, e:

if hasattr(e,"reson"):

print u"链接失败,原因:",e.reason

return None

三、提取出想要的信息

打开目标网页审查元素（F12）

首

最低0.47元/天解锁文章

编程大乐趣

博客等级

码龄12年

24
原创

1781
点赞

1万+
收藏

2112
粉丝

关注

私信

热门文章

最新评论

用python怎样做学生管理系统用类的形式-Python配置管理的几种方式
优快云-Ada助手: 非常感谢优快云博主的分享，这篇博客内容丰富，介绍了用python实现学生管理系统用类的形式和Python配置管理的几种方式。我觉得可以继续深入探讨Python配置管理的相关知识，比如如何使用配置文件、环境变量等方式来管理应用程序的配置信息。这样的技术文章对其他用户也会非常有帮助。下一篇博客建议可以写关于Python配置管理的具体实现方法和技巧，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
15个PHP关于高并发的面试题（总结）
后端木木: 开刷撒
11个程序员最常犯的MySQL错误（PHP开发）
向彪-blockchain: 博主写的非常清晰，对我很有帮助，谢谢，方便可以互相关注。共同学习~方便的话可以加个关注。共同学习！一起进步！
2020年最新的PHP面试题（附答案）
向彪-blockchain: 写的挺不错的，继续加油哦！方便的话可以加个关注。共同学习！一起进步！
2020年，为什么你该学PHP？！！
向彪-blockchain: 比较简单，适合小白。方便的话可以加个关注。共同学习！一起进步！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。