橡皮擦的周末时间,浏览互联网,畅游知识的海洋,寻找好看的动漫,然后就发现了本文的主角,一个来自台湾省的网站。
Kindle 漫畫|Kobo 漫畫|epub 漫畫大采集
数据源分析
爬取目标
本次要爬取的网站是 https://vol.moe/,该网站打开的第一眼,就给我呈现了一个大数,收录 10994 部漫画,必须拿下。

为了降低博客的篇幅,还有大家练习的难度,本文只针对列表页抓取,里面涉及的目标数据结构如下:
- 漫画标题
- 漫画评分
- 漫画详情页链接
- 作者
同步保存漫画封面,文件名为漫画标题。
漫画详情页还存在大量的标签,因不涉及数据分析,故不再进行提取。
使用的 Python 模块
爬取模块 requests,数据提取模块 re,多线程模块 threading
重点学习内容
-
<
本文介绍了如何使用Python爬取一个收录10994部漫画的网站数据,包括漫画标题、评分、详情页链接和封面。在爬取过程中遇到网站的反爬策略,通过更换IP和UA规避了限制,最终成功保存了524页的数据到本地。详细展示了爬虫实现的步骤和关键代码,提供了完整的代码下载链接。
订阅专栏 解锁全文
1314

被折叠的 条评论
为什么被折叠?



