scrapy爬虫爬取17k小说网全部章节信息(MongoDB,分页)

Python爬虫实战:京东反扒与17k小说网数据抓取
本文讲述了作者在使用Python爬取京东和17k小说网时遇到的反爬问题,通过XPath解析和递归函数实现翻页,同时介绍了如何使用正则表达式和MongoDB存储数据。

跟着教程爬取京东的时候,一会爬出来,一会儿爬不出来,京东反扒挺厉害啊。还是17k好爬一些。跟着教程走,还是出不来结果,看着自己的代码没错啊。使用17k一试,果然很顺利啊。看来目前也只会爬一些简单的网站,如果网站有反爬虫举措,那我就捉襟见肘了。

17k小说网分类中小说还是挺多的,为了方便查看结果,就缩小了小说书籍的范围。

【图片】

今天是2023年10月19日, AM 11:02:48,今天csdn图片出错了,不管是用什么浏览器,还是使用剪切板粘贴,上传图片,都失败了,文章里加不了图片。

这样只有6页,100多条结果,爬起来也快一些。

多练习,多看教程,原来代码是这个意思啊。刚开始,只会照着教程抄代码,囫囵吞枣,先有个大概的了解和熟悉,现在要慢慢深入理解代码的含义了。原来scrapy爬虫里面也是可以递归函数的,只是自己不会罢了。

app.py

from typing import Any

import scrapy
from scrapy import Request
from scrapy.http import Response
import re
from ..items import Scrapy05Item


class AppSpider(scrapy.Spider):
    name = "app"
    allowed_domains = ["www.17k.com"]
    # start_urls = ["https://www.17k.com/all/book/2_0_0_0_0_0_0_0_1.html"]
    start_urls = ["https://www.17k.com/all/book/2_21_115_1_3_0_1_0_1.html"]


    def parse(self, response):
        # 获取首页数据
        links = response.xpath('//td[@class="td4"]/a/@href').extract()
        for index, link in enum
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

andux

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值