跟着教程爬取京东的时候,一会爬出来,一会儿爬不出来,京东反扒挺厉害啊。还是17k好爬一些。跟着教程走,还是出不来结果,看着自己的代码没错啊。使用17k一试,果然很顺利啊。看来目前也只会爬一些简单的网站,如果网站有反爬虫举措,那我就捉襟见肘了。
17k小说网分类中小说还是挺多的,为了方便查看结果,就缩小了小说书籍的范围。
【图片】
今天是2023年10月19日, AM 11:02:48,今天csdn图片出错了,不管是用什么浏览器,还是使用剪切板粘贴,上传图片,都失败了,文章里加不了图片。
这样只有6页,100多条结果,爬起来也快一些。
多练习,多看教程,原来代码是这个意思啊。刚开始,只会照着教程抄代码,囫囵吞枣,先有个大概的了解和熟悉,现在要慢慢深入理解代码的含义了。原来scrapy爬虫里面也是可以递归函数的,只是自己不会罢了。
app.py
from typing import Any
import scrapy
from scrapy import Request
from scrapy.http import Response
import re
from ..items import Scrapy05Item
class AppSpider(scrapy.Spider):
name = "app"
allowed_domains = ["www.17k.com"]
# start_urls = ["https://www.17k.com/all/book/2_0_0_0_0_0_0_0_1.html"]
start_urls = ["https://www.17k.com/all/book/2_21_115_1_3_0_1_0_1.html"]
def parse(self, response):
# 获取首页数据
links = response.xpath('//td[@class="td4"]/a/@href').extract()
for index, link in enum
Python爬虫实战:京东反扒与17k小说网数据抓取

本文讲述了作者在使用Python爬取京东和17k小说网时遇到的反爬问题,通过XPath解析和递归函数实现翻页,同时介绍了如何使用正则表达式和MongoDB存储数据。
最低0.47元/天 解锁文章
863

被折叠的 条评论
为什么被折叠?



