使用Python编写爬虫糗事百科

最新推荐文章于 2019-11-14 17:21:11 发布

darren573

最新推荐文章于 2019-11-14 17:21:11 发布

阅读量379

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： Python 爬虫糗事百科

本文链接：https://blog.youkuaiyun.com/darren573/article/details/82846372

Python 专栏收录该内容

8 篇文章

订阅专栏

本文分享了一次使用Python进行糗事百科爬虫的实战经验，详细介绍了如何通过编写代码抓取糗事百科的段子，并解析网页内容，最终将数据保存至本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

心血来潮，想爬糗百，刚好在学习Python，就拿糗百练练手吧~
先上代码，看后再说，嘿嘿嘿。

# _*_  coding:utf-8 _*_
import urllib.request
import re

class QSBK:
    # 初始化方法，定义一些变量；
    def __init__(self):
        # 当前页码
        self.pageIndex = 1
        # 模拟浏览器的user_agent
        self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
        # 初始化headers
        self.headers = {'User-Agent': self.user_agent}
        # 存放每页段子的列表，每一个元素是每一页的段子们
        self.stories = []
        # 保存数据的文件
        self.file = open("糗事百科.txt", "w", encoding='utf-8')

    def __del__(self):
        self.file.close()

    # 传入某一页的索引获得页面代码
    def getPage(self, pageIndex):
        try:
            # http://www.qiushibaike.com/hot/page/
            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)
            # 构建请求的request
            req = urllib.request.Request(url, headers=self.headers)
            # 利用urlopen获取页面代码
            response = urllib.request.urlopen(req)
            # 将页面转化为UTF-8编码
            pageCode = response.read().decode('utf-8')
            return pageCode
        except Exception as e:
            if hasattr(e, "reason"):
                print(u"连接糗事百科失败,错误原因：", e.reason)
                return None

    # 传入某一页代码，返回本页不带图片的段子列表
    def getPageItems(self, pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print("页面加载失败....")
            return None
        pattern = re.compile(
            '<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?<a href="(.*?)".*?<div.*?class="content".*?>.*?<span>(.*?)</span>(.*?)</a>(.*?)<div class="stats.*?class="number">(.*?)</i>',
            re.S)
        # print pageCode
        items = re.findall(pattern, pageCode)
        # 用来存储每页的段子们
        pageStories = []
        # 遍历正则表达式匹配的信息

        for item in items:
            # 判断是否已经展示全文
            isAll = re.search('<span class="contentForAll">', item[3])
            content = item[2].strip()
            if isAll is not None:
                # 从段子详情页获取完整的段子
                url = 'http://www.qiushibaike.com' + item[1]
                requ = urllib.request.Request(url, headers=self.headers)
                response = urllib.request.urlopen(requ)
                contentCode = response.read().decode('utf-8')
                contentPattern = re.compile('<div class="content">(.*?)</div>', re.S)
                content = re.findall(contentPattern, contentCode)[0].strip()
                content.replace("\n", "<br/>")
            # 判断是否有图片
            imgSrc = re.findall('<img src="//(.*?)"', item[4])
            if not imgSrc:
                # 不包含图片
                # 作者 内容 图片链接 赞数
                pageStories.append([item[0].strip(), content, "", item[5].strip()])
            else:
                pageStories.append([item[0].strip(), content, imgSrc[0].strip(), item[5].strip()])
        return pageStories

    # 加载并提取页面的内容，加入到列表中
    def loadPage(self):
        # 获取新一页
        pageStories = self.getPageItems(self.pageIndex)
        # 将该页的段子存放到全局list中
        if pageStories:
            self.stories.append(pageStories)

    def printStory(self, pageStories, page):
        # 遍历一页的段子
        for story in pageStories:
            if story[2] == "":
                # 无图段子
                self.file.write(u'{"author":"%s","content":"%s","type":"110"}\n' % (story[0], story[1]))
                print(u"第%d页\t发布人:%s\n%s\n赞:%s\n" % (page, story[0], story[1], story[3]))
            else:
                # 有图段子
                self.file.write(
                    u'{"author":"%s","content":"%s","img":"%s","type":"100"}\n' % (story[0], story[1], story[2]))
                print(u"第%d页\t发布人:%s\n%s\n图片:%s\n赞:%s\n" % (page, story[0], story[1], story[2], story[3]))

    # 开始方法
    def start(self):
        print(u"正在读取糗事百科,请稍后...")
        while self.pageIndex <= 13:
            # 加载内容
            self.loadPage()
            # 从全局list中获取一页的段子
            pageStories = self.stories[0]
            # 将全局list中第一个元素删除，因为已经取出
            del self.stories[0]
            # 输出该页的段子
            self.printStory(pageStories, self.pageIndex)
            # 获取完之后页码索引加一，表示下次读取下一页
            self.pageIndex += 1
        else:
            print("完毕")


if __name__ == '__main__':
    spiderQSBK= QSBK()
    spiderQSBK.start()

在这里插入图片描述
注意： open中的mode 决定了打开文件的模式：

咱们这里用的是写入权限

同时创建的“糗事百科.txt”文件在同一包下，同一目录中，如图：

有错误请指出，共同进步，共勉！