使用scrapy爬取小说网站

最新推荐文章于 2024-06-13 23:53:25 发布

原创

最新推荐文章于 2024-06-13 23:53:25 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #scrapy

这篇博客详细介绍了如何利用Python的Scrapy框架爬取小说网站的数据。内容包括定义items.py中的内容模板，编写book.py爬虫文件，以及设置pipelines.py进行数据处理和在settings.py中启用管道。

声明：仅供学习交流使用

items.py ->内容模板

import scrapy

class QqduItem(scrapy.Item):

    book = scrapy.Field()
    bookId = scrapy.Field()
    chapter = scrapy.Field()
    chapterId = scrapy.Field()
    content = scrapy.Field()

book.py ->爬虫文件

# -*- coding: utf-8 -*-

import scrapy, sys
from qqdu.items import QqduItem
from scrapy.http import Request

reload(sys)
sys.setdefaultencoding("gbk")