Python scrapy_splash爬取所有腾讯小说

本文介绍了一个使用Scrapy和Splash的爬虫项目,用于爬取小说网站的免费章节内容。通过修改代码,可以扩展到爬取整个网站的小说资源。项目中运用了BeautifulSoup进行HTML解析,展示了如何利用Scrapy发送请求并处理响应。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前置条件:正确配置Splash
关于spider 下
下面代码是爬取一个主目录下的爬取小说所有免费章节的内容,如果想爬取所有的
小说,那只要修改下代码即可.

import scrapy
import os
from scrapy_splash import SplashRequest
from tools.headers import UserAgent  #!这个模块时个人包装的,如需使用,在下面改成浏览器的请求头即可
from hello.items import HelloItem  
from bs4 import BeautifulSoup  #编码问题,欢迎提出疑问

class SearchSpider(scrapy.Spider):
    name = 'search'
    #allowed_domains = ['helllo.com']
    def start_requests(self): #yield 下面网址可更改 ,在小说的主目录下
        yield SplashRequest(url='http://chuangshi.qq.com/bk/qh/AGkENV1jVjYAP1RtATYBYQ-l.html',callback=self.parse,
        headers={'User-Agent':UserAgent.PC()})
    def parse(self, response):
        for area in response.css('.index_area>div'):
            if not area.css('.topfill>h1>span'):
                for li_ in area.css('.list>ul>li'):
                    item=HelloItem()
                    item['title']=li_.css('a b::text').extract_first()
                    item['url']=li_.css('a::attr(href)').extract_first()
                    yield SplashRequest(url=item['url'],args={'wait':10,},callback=self.download,headers={'User-Agent':UserAgent.PC(),})
    def download(self,response):
        doc=BeautifulSoup(response.body.decode('utf-8'),'lxml') 
        filename=doc.title.string[:-4]+'.txt'
        with open(filename, 'a+', encoding='utf-8') as f:
            for li in doc.find(class_='bookreadercontent').find_all('p'):
                f.write(li.string + '\n')
  • 此代码仅供学习使用
  • 以上皆为个人理解,如有错误之处,欢迎留言指正
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值