爬虫|菜鸟的学习之路——爬取一本小说

最新推荐文章于 2025-11-12 09:52:44 发布

原创最新推荐文章于 2025-11-12 09:52:44 发布 · 2.8w 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #爬虫 #爬取小说 #编程

爬虫初学菜鸟专栏收录该内容

1 篇文章

订阅专栏

本文介绍使用Python爬取全书网小说的方法，通过解析网页源代码获取小说章节链接及内容，并以TXT格式保存。

Python3.9

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

前言：本次爬取的是全书网的某一本小说并以.TXT格式下载到本地。

工具：python3 和 pycharm

Python库：urllib.request 和 re

注意：python是用3以上的版本，库可以在Windows命令提示符里输入pip install+库名

第一步：分析网页

1.首先我们要了解要爬取网站的页面，查看网页源代码。

2.其次要想好代码的步骤和思路。

#获取主页面源代码

#获取章节超链接

#获取小说内容

#下载小说

（全书网某本小说界面）

第二步：开始编程

1.定义库。

import urllib.request

import re

2.定义一个函数egtNovlContent()。

#获取主页面源代码

html = urllib.request.urlopen("http://www.quanshuwang.com/book/9/9055").read()

#解码

html = html.decode("gbk")

#获取章节超链接

urls = re.findall(req, html)

#遍历每章（章节网址和名字）

for i in urls:

    novel_url = i[0]

    novel_name = i[1]

    chapt = urllib.request.urlopen(novel_url).read()

    chapt_html = chapt.decode("gbk")

#获取小说内容

    reg = '</script>    (.*?)<script type="text/javascript">'

#多行匹配

    reg = re.compile(reg, re.S)

    chapt_content = re.findall(reg, chapt_html)

#删掉多余的字符串（替换）

    chapt_content = chapt_content[0].replace("    ","")

    chapt_content = chapt_content.replace("<br />", "")

#下载小说

    print("正在下载：%s"%novel_name)

    f = open('{}.txt'.format(novel_name),"w")

    f.write(chapt_content)

    f.close()

#调用函数

getNovelContent()

第三步：运行实践

（pycharm运行）

（本地查看，爬取成功）

源代码如下：

结束语：第一次写博客，写的很糙，望包含，我是初学者，菜鸟一枚，多多学习。

——sum

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。