使用Python编写爬虫糗事百科

本文分享了一次使用Python进行糗事百科爬虫的实战经验,详细介绍了如何通过编写代码抓取糗事百科的段子,并解析网页内容,最终将数据保存至本地文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

心血来潮,想爬糗百,刚好在学习Python,就拿糗百练练手吧~
先上代码,看后再说,嘿嘿嘿。

# _*_  coding:utf-8 _*_
import urllib.request
import re

class QSBK:
    # 初始化方法,定义一些变量;
    def __init__(self):
        # 当前页码
        self.pageIndex = 1
        # 模拟浏览器的user_agent
        self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
        # 初始化headers
        self.headers = {'User-Agent': self.user_agent}
        # 存放每页段子的列表,每一个元素是每一页的段子们
        self.stories = []
        # 保存数据的文件
        self.file = open("糗事百科.txt", "w", encoding='utf-8')

    def __del__(self):
        self.file.close()

    # 传入某一页的索引获得页面代码
    def getPage(self, pageIndex):
        try:
            # http://www.qiushibaike.com/hot/page/
            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)
            # 构建请求的request
            req = urllib.request.Request(url, headers=self.headers)
            # 利用urlopen获取页面代码
            response = urllib.request.urlopen(req)
            # 将页面转化为UTF-8编码
            pageCode = response.read().decode('utf-8')
            return pageCode
        except Exception as e:
            if hasattr(e, "reason"):
                print(u"连接糗事百科失败,错误原因:", e.reason)
                return None

    # 传入某一页代码,返回本页不带图片的段子列表
    def getPageItems(self, pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print("页面加载失败....")
            return None
        pattern = re.compile(
            '<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?<a href="(.*?)".*?<div.*?class="content".*?>.*?<span>(.*?)</span>(.*?)</a>(.*?)<div class="stats.*?class="number">(.*?)</i>',
            re.S)
        # print pageCode
        items = re.findall(pattern, pageCode)
        # 用来存储每页的段子们
        pageStories = []
        # 遍历正则表达式匹配的信息

        for item in items:
            # 判断是否已经展示全文
            isAll = re.search('<span class="contentForAll">', item[3])
            content = item[2].strip()
            if isAll is not None:
                # 从段子详情页获取完整的段子
                url = 'http://www.qiushibaike.com' + item[1]
                requ = urllib.request.Request(url, headers=self.headers)
                response = urllib.request.urlopen(requ)
                contentCode = response.read().decode('utf-8')
                contentPattern = re.compile('<div class="content">(.*?)</div>', re.S)
                content = re.findall(contentPattern, contentCode)[0].strip()
                content.replace("\n", "<br/>")
            # 判断是否有图片
            imgSrc = re.findall('<img src="//(.*?)"', item[4])
            if not imgSrc:
                # 不包含图片
                # 作者 内容 图片链接 赞数
                pageStories.append([item[0].strip(), content, "", item[5].strip()])
            else:
                pageStories.append([item[0].strip(), content, imgSrc[0].strip(), item[5].strip()])
        return pageStories

    # 加载并提取页面的内容,加入到列表中
    def loadPage(self):
        # 获取新一页
        pageStories = self.getPageItems(self.pageIndex)
        # 将该页的段子存放到全局list中
        if pageStories:
            self.stories.append(pageStories)

    def printStory(self, pageStories, page):
        # 遍历一页的段子
        for story in pageStories:
            if story[2] == "":
                # 无图段子
                self.file.write(u'{"author":"%s","content":"%s","type":"110"}\n' % (story[0], story[1]))
                print(u"第%d页\t发布人:%s\n%s\n赞:%s\n" % (page, story[0], story[1], story[3]))
            else:
                # 有图段子
                self.file.write(
                    u'{"author":"%s","content":"%s","img":"%s","type":"100"}\n' % (story[0], story[1], story[2]))
                print(u"第%d页\t发布人:%s\n%s\n图片:%s\n赞:%s\n" % (page, story[0], story[1], story[2], story[3]))

    # 开始方法
    def start(self):
        print(u"正在读取糗事百科,请稍后...")
        while self.pageIndex <= 13:
            # 加载内容
            self.loadPage()
            # 从全局list中获取一页的段子
            pageStories = self.stories[0]
            # 将全局list中第一个元素删除,因为已经取出
            del self.stories[0]
            # 输出该页的段子
            self.printStory(pageStories, self.pageIndex)
            # 获取完之后页码索引加一,表示下次读取下一页
            self.pageIndex += 1
        else:
            print("完毕")


if __name__ == '__main__':
    spiderQSBK= QSBK()
    spiderQSBK.start()

在这里插入图片描述
注意: open中的mode 决定了打开文件的模式:
在这里插入图片描述
咱们这里用的是写入权限
在这里插入图片描述
同时创建的“糗事百科.txt”文件在同一包下,同一目录中,如图:
在这里插入图片描述
有错误请指出,共同进步,共勉!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值