Python VIP 付费漫画,无需充值随便霍霍,零基础也能学会!

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

环境使用:

  • Python 3.10

  • Pycharm

模块使用:

  • requests >>> pip install requests 数据请求模块

  • parsel >>> pip install parsel 数据解析模块

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

爬虫流程: 从单个数据到多个数据

一. 数据来源分析
  1. 明确需求: 明确采集的网站以及数据内容

    网址: https://www.mkzhan.com/214062/1025745.html

    数据: 漫画内容 38张漫画内容

  2. 抓包分析: 请求那个网址, 能够得到这38张图

    • 打开开发者工具: F12 / 右键点击检查选择 network (网络)

    • 刷新网页

    • 找到漫画图片链接: 点击Img (图片)

      单张地址: https://content.mkzcdn.com/image/20230804/64cccfe2ae025-800x1508.jpg!page-800-x?auth_key=1701173492-0-0-392b7f3719571ef0c99ca254a635aea2

    • 通过关键字去搜索, 找到所有图片对应链接地址

      单章漫画数据包地址: https://comic.mkzcdn.com/chapter/content/v1/?chapter_id=1025745&comic_id=214062&format=1&quality=1&sign=653488115409d382ed7ce4ad472e2074&type=1&uid=67916915

二. 代码实现步骤:
  1. 发送请求 -> 模拟浏览器对于url发送请求

  2. 获取数据 -> 获取服务器返回响应数据 <整个响应数据>

  3. 解析数据 -> 提取所有漫画图片链接

  4. 保存数据 -> 获取漫画内容, 保存本地文件夹中

多章数据采集: 基本的思路流程差不多

核心: 对比请求链接参数变化规律

  • 最终话: https://comic.mkzcdn.com/chapter/content/v1/?chapter_id=1025745&comic_id=214062&format=1&quality=1&sign=653488115409d382ed7ce4ad472e2074&type=1&uid=67916915

  • 630话: https://comic.mkzcdn.com/chapter/content/v1/?chapter_id=1025744&comic_id=214062&format=1&quality=1&sign=653488115409d382ed7ce4ad472e2074&type=1&uid=67916915

chapter_id: 章节ID

获取到整本漫画内容章节ID, 就可以获取整本漫画内容

多个数据采集 -> 某某ID的改变

都可以在目录页面获取到

数据包链接地址: https://www.mkzhan.com/214062/

  1. 发送请求 -> 模拟浏览器对于url发送请求

  2. 获取数据 -> 获取服务器返回响应数据 <整个响应数据>

  3. 解析数据 -> 提取漫画名字 / 章节名字

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值