python爬虫学习之小说抓取1

最新推荐文章于 2025-09-08 23:34:59 发布

weixin_30546189

最新推荐文章于 2025-09-08 23:34:59 发布

阅读量111

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/tian2B/p/10878235.html

本文分享了使用Python爬虫抓取小说时遇到的问题及解决方法，包括避免乱码问题和正确拼接章节URL，为爬虫初学者提供实用经验。

爬虫学习的一点心得

任务：抓取某小说并下载

抓取：requests

解析：xpath，正则表达式

1.获取小说索引页源代码时，出现乱码，试了很多方法都不行，最后找到原因是请求头中有一参数

'accept-encoding':'gzip, deflate, br'

普通浏览器访问网页，之所以添加：

"Accept-Encoding" = "gzip,deflate"

那是因为，浏览器对于从服务器中返回的对应的gzip压缩的网页，会自动解压缩，所以，其request的时候，添加对应的头，表明自己接受压缩后的数据。

而此代码中，如果也添加此头信息，结果就是，返回的压缩后的数据，没有解码，而将压缩后的数据当做普通的html文本来处理，当前显示出来的内容，是乱码了。

删除这一参数就可以了

2.索引页抓取每一章节小说的url链接地址，源码中显示的地址只有一部分，需要进行拼接才是完整的url地址

转载于:https://www.cnblogs.com/tian2B/p/10878235.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30546189

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python 爬虫入门级教程之爬取小说【保姆级教程】

Dreams°的博客

09-04

3744

Python 爬虫技术通过自动化和高效的数据抓取，极大地简化了从互联网上收集、处理和分析数据的过程，使实时数据获取、内容监控、市场调研、数据分析以及存储管理变得更加便捷和高效，从而为企业决策、科研研究以及个人学习提供了强大的支持，节省了大量时间和精力，提升了工作效率。然而，使用爬虫技术时必须遵守法律法规和目标网站的使用条款，避免未经授权的数据抓取，确保合规合法地进行数据采集和处理。

python爬虫——从此不用再愁找不到小说txt文件

孤行

08-09

3409

看小说者的福利神器

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫学习：掌上高考数据抓取与分析（1）

NIKEeri的博客

06-14

2644

随着2025年高考落幕，众多考生和家长即将进入志愿填报阶段。科学合理地选择高校和专业，需要依赖详实的招生数据，如各省高校名单、招生计划、录取分数线等。本次实践通过Python爬虫技术，利用公开的掌上高考API接口，按省份分页抓取高校信息及其ID，搭建一个可复用的数据抓取框架。文章重点介绍爬虫设计思路、关键代码实现及请求细节，帮助初学者快速掌握API数据爬取方法。本文仅记录个人，所用数据采集严格遵守网络安全法规，控制访问频率，保证爬取行为合规安全，适合作为爬虫学习与数据分析的技术参考。

python爬虫实战——小说爬取

cuc_pyx技术小站

05-21

3万+

基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。

8个Python爬虫高效数据抓取技巧

m0_62283350的博客

08-21

3148

在数据驱动的时代，Python爬虫成为了获取网络数据的重要工具。本文将深入浅出地介绍8个高效的Python爬虫技巧，帮助初学者提升数据抓取能力，从简单的网页内容提取到复杂的动态网站抓取，逐步解锁爬虫高级技能。

零基础也能玩转！Python爬虫抓取网络小说全攻略（附实战代码）

notion2025的博客

06-11

1412

虽然技术无罪，但使用需谨慎！建议从学习角度出发，不要用于商业用途。遇到付费内容请支持正版，好的创作环境需要大家共同维护~（注：本文示例代码需替换真实网址后使用，仅供学习交流）

Python爬虫实战训练：爬取网络小说

2301_79959126的博客

08-21

6242

本篇博文介绍了如何使用python编写一个爬取网络小说的爬虫程序。

Python 爬虫实践-抓取小说

迷路啦的博客

10-14

3961

1，了解学习 requests 库；网络请求的相关接口；拿到网页的源代码； 2，学会用浏览器的检查； 3，找到规律，写代码，实现自动化抓取；

Python网络爬虫-WebSocket数据抓取

a910247的博客

04-24

3973

WebSocket是一种在单个TCP连接上进行全双工通信的网络协议。与HTTP不同，WebSocket提供了持久连接，允许服务器和客户端在同一时间内互相发送数据。这种特性使得WebSocket非常适合实时通信，如聊天应用、在线游戏等。握手过程客户端发送一个HTTP请求到服务器，请求的头部包含特定的WebSocket协议信息。服务器接收到请求后，如果支持WebSocket协议，会返回一个HTTP 101状态码，表示协议切换成功。握手成功后，TCP连接就被升级为WebSocket连接。数据帧。

Python爬虫实战：利用代理IP获取电商数据

热门推荐

努力让自己发光，对的人才能迎着光而来

05-27

20万+

● 电商数据对于了解用户行为、优化营销策略、提高转化率等方面具有重要作用。●通过分析用户数据，企业可以找到目标用户，精准投放广告和推广活动，有效提高广告的转化率和投资回报率。●电商数据还可以用于个性化推荐、营销活动优化、供应链管理等场景，帮助企业提升用户体验和运营效率。亮数据代理IP免费试用。

Java 和 Python 的执行方式有很大不同——Android学习

ban102055的博客

09-04

2779

特性PythonJava执行方式(解释执行)->(先编译后执行)是否需要编译否是环境需要 Python 解释器需要JDK(包含javac和java在Android Studio中不适用全自动，点击“Run”即可给你的建议：为了学习 Android 开发：直接使用。不要担心命令行，IDE 会帮你处理一切。专注于编写代码和理解 Android 的概念（如 Activity、生命周期）。为了单纯学习 Java 语法。

torch神经网络入门级设备测试

m0_71002812的博客

09-07

714

本文介绍了一个基于PyTorch的CPU与GPU性能评估系统，用于比较不同硬件在求解常微分方程(ODE)的神经网络模型中的计算效率。系统包含以下核心功能：自动检测CUDA可用性及GPU配置构建多层前馈神经网络模型求解二阶ODE 性能基准测试：分别在CPU/GPU上运行相同训练任务，计算加速比内存使用分析：对比CPU/GPU张量的内存占用情况梯度计算专项测试：评估反向传播耗时差异评估结果显示，在处理大规模数据(≥5000个数据点)时，GPU凭借并行计算优势可获得显著加速效果。系统适用于科研人员优化物

Java 枚举通用接口设计与实现

sunnyday0426的博客

09-04

724

本文介绍了Java中枚举类型的通用接口设计方法。通过定义BaseEnumInterface接口，可以为枚举添加code和desc属性，并提供统一的静态操作方法，如根据code获取枚举实例、获取所有编码列表、验证编码有效性等。以GenderEnum为例，展示了枚举类如何实现该接口，并演示了通过接口提供的通用方法进行便捷操作。这种设计模式提高了代码复用性，使枚举操作更加规范统一。

【TXT】用 Python 实现超漂亮的 HTML 两栏文本对比工具（支持行内差异高亮）

采菊东篱下，Python满乾坤！

09-05

1207

这个小工具虽然只有 300 多行代码，但却融合了文本处理、算法匹配、前端渲染和用户体验设计。它不仅实用，还能作为学习difflib和 HTML/CSS 布局的优秀范例。✅一句话总结：让文本对比不再枯燥，让差异“看得见”！也欢迎在评论区提出你的优化想法 😊。

AI驱动的软件测试：革命性的自动化、缺陷检测与实验优化

zzywxc787的博客

09-06

673

人工智能（AI）和机器学习（ML）技术的融入，正在从根本上重塑软件测试的格局，将其从一种主要是手动的、重复性的任务转变为一种智能的、预测性的、且持续优化的过程。*说明：多臂老虎机算法（MAB）由于将更多流量分配给了更好的版本B，其累积回报（点击次数）的增长速度远快于传统A/B测试（固定50/50分流）。：利用NLP技术（如文本分类）自动分析新提交的Bug报告的内容、标题和描述，将其自动分类（如“前端UI问题”、“后端API错误”），并推荐或分配给最合适的开发人员（基于谁修改了相关代码文件）。

CentOS/Ubuntu安装显卡驱动与GPU压力测试

eeeeebv的博客

09-08

674

GPU（图形处理器）从最初专用于图形渲染发展为兼具图形处理和通用并行计算能力的核心硬件，广泛应用于游戏、AI、科学计算等领域。与CPU不同，GPU拥有数千个轻量级计算核心，擅长海量数据并行处理。主流厂商包括NVIDIA和AMD，市场呈现双寡头格局。在虚拟机中安装显卡驱动需区分虚拟显卡和物理显卡直通两种场景，后者能发挥真实性能但安装复杂。CentOS和Ubuntu系统安装显卡驱动需先禁用开源驱动并安装必要依赖包，再执行厂商驱动安装程序。最后可通过压力测试验证GPU性能表现。

Python核心技术开发指南(037)——匿名函数

谷哥的小弟

09-05

287

本文介绍了Python中的匿名函数（lambda函数），它是一种无需名称、通过lambda关键字定义的简洁函数形式。文章对比了匿名函数与命名函数的差异，指出匿名函数适合简单逻辑和临时使用场景，尤其是作为参数传递给高阶函数时更具优势。通过多个示例展示了匿名函数在数学运算、排序、条件判断和数据过滤等场景的应用，包括与sorted()、map()、filter()等内置函数的结合使用。

Pandas数据结构（DataFrame，字典赋值）