爬虫练习-爬取笔趣阁小说

最新推荐文章于 2025-01-23 14:17:18 发布

原创

最新推荐文章于 2025-01-23 14:17:18 发布 · 1.4w 阅读

189 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #笔趣阁爬虫

本文作为爬虫练习，介绍了如何使用Python爬取笔趣阁小说。首先，通过URL编码和GBK转换判断小说是否存在。接着，利用Xpath解析获取小说主页URL并收集目录链接，跳过前12章。最后，下载小说内容，保存至文本文件。代码结构清晰，分为获取网页、解析网页、下载三个步骤。未来计划学习反爬虫、网页加密破解、AJAX和分布式爬虫。

练习一下爬虫，将笔趣阁的小说根据需求目标再爬取下来，本文仅仅学习爬虫技术，大家还是要支持一下正版网站的

思路：

最低0.47元/天解锁文章

20 条评论

weixin_44588877 2022.05.18
可以获取文件夹，但是里面没有文档；是个空文件夹

雨杰有点狂 2022.01.13
不对啊，输入什么都返回不存在

花与落叶 2022.01.11
可以获取文件夹，但是里面没有文档
- weixin_44588877回复花与落叶 2022.05.18
  我也是这样，请问有解决好吗

d1253712704 2019.12.17
能否给一个完整的代码？刚开始需要调用包是吗？小白，不懂请见谅
- 莫莫先生回复d1253712704 2019.12.17
  我私信你了
- d1253712704回复莫莫先生 2019.12.17
  [reply]weixin_44835732[/reply] 我截图了，但是给你不能发，我在cmd运行pip install python-docx，运行了几行就全红了
- 莫莫先生回复d1253712704 2019.12.17
  你也没给截图给我，我不是很清楚具体情况，就我自己出现的问题，很大程度是pip没更新导致的，你用管理员权限运行cmd，然后更新pip就行
- d1253712704回复莫莫先生 2019.12.17
  [reply]weixin_44835732[/reply] 我安装pip install python-docx全红了，是什么原因
- 莫莫先生回复d1253712704 2019.12.17
  [reply]d1253712704[/reply] os库 python自带的调用即可，requests模块需安装 pip install requests， lxml模块需安装 pip install lxml ，docx模块需安装 pip install python-docx ，urllib模块 python自带的调用即可，上面需要安装的命令都在cmd窗口运行就行了，然后完整的代码都附在文末了，还有问题记得找我哦对啦，推销一波，我写一篇汇总爬虫项目的文章，你可以看，里面从特别简单的爬虫到复杂一些的都有 https://blog.youkuaiyun.com/weixin_44835732/article/details/103472242