用python来爬取网络小说

晚亭听铃

已于 2022-11-28 16:42:39 修改

阅读量860

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言

于 2022-11-27 23:16:10 首次发布

本文链接：https://blog.youkuaiyun.com/kelvinfanyiang/article/details/128071796

该博客使用Python的requests和lxml库实现了一个简单的网页爬虫，从指定URL抓取并解析网页内容。爬虫遍历页面上的文章，提取文章标题和正文信息，并将结果保存到xiaoshuo.txt文件中。程序通过检查next_url是否为'./'来决定是否继续爬取下一页。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码如下：

import requests
from lxml import etree

# 获取链接
url = 'https://www.*****.com/tuili/9696/xxxxx.html'
while True:

 
    headers = {
   
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
    }

    resp = requests.get

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晚亭听铃

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬取实战（一）：爬取网络小说

qq_43660588的博客

03-28

1502

———————本文仅用于技术交流，支持正版————————— 爬虫学到了一丢丢，就开始了实战之旅，第一次实战，来点简单的，我们来爬一本小说。对网页结构进行分析网上随便找了本小说，按下我们最热爱的F12，打开开发者工具，按下图所示操作。点击开发者工具左上角的小箭头，鼠标指向章节链接的位置，不要点击！开发者工具就会自动显示这一部分所对应的源代码，我们能发现每个章节的链接都是在a标签。我们就可...

完全小白篇-使用Python爬取网络小说

最新发布

notion2025的博客

06-11

1123

虽然技术无罪，但使用需谨慎！建议从学习角度出发，不要用于商业用途。遇到付费内容请支持正版，好的创作环境需要大家共同维护~（注：本文示例代码需替换真实网址后使用，仅供学习交流）

Python爬虫实战训练：爬取网络小说

2301_79959126的博客

08-21

6140

本篇博文介绍了如何使用python编写一个爬取网络小说的爬虫程序。

Python 爬虫2例:爬网络小说

星陨阁:wxgnolux

05-26

650

程序逻辑:按给出的第一章节URL，抓HTML,然后通过正则表达式，取出小说章节的标题、正文、下章节的URL，然后跳转到下一章节，不断循环处理。取出的正文写入文本文件。同时记录每次取过的URL，如果网络异常了，重启程序，可以从文件中取URL继续上次的抓取任务。正则，对应如下图: 代码:https://download.youkuaiyun.com/download/fangkailove/1...

python爬取小说

sitive的博客

10-20

1334

python获取小说

python 爬取网络小说

10-09

下面将详细讲解Python爬取网络小说的相关知识点。 1. **基础概念**： - **网络爬虫（Web Crawler）**：是一种自动化程序，用于遍历互联网上的网页，提取所需信息。 - **HTTP/HTTPS协议**：网络爬虫的基础，理解...

【python网络爬虫】-爬取小说

11-02

python爬取小说 # 爬虫下载一本小说 import time import requests import os from bs4 import BeautifulSoup # 从bs4库中导入BeautifulSoup import random # 导入随机数模块,用于随机生成休眠时间,防止被封IP（这个...

Python爬取小说网站的小说

05-05

本教程将详细讲解如何使用Python来爬取小说网站上的小说内容。首先，我们需要了解网络爬虫的基本概念。网络爬虫是一种自动遍历互联网并下载网页的程序。在Python中，我们通常使用requests库来发送HTTP请求获取网页...

用python爬取一本网络小说

Binary_huang的简介

06-14

1215

用python爬取一本网络小说。

Python爬虫实战 | 爬取网络中的小说

大模型研究中心

09-21

4547

网络文学是新世纪我国流行文化中的重要领域，年轻人对网络小说更是有着广泛的喜爱。本文以抓取网络小说正文为例编写一个简单、实用的爬虫脚本。

网络爬虫初涉——用python爬取网络小说

dyk4ever的博客

08-25

357

小说网站：无人生还https://www.xs880.com/html/17516.html 第一章内容：无人生还第一章https://www.xs880.com/html/17516/12036575.html 可以发现相对于正常情况下，该网站一个章节分了几页，这增加了一点小麻烦。。。不过我们可以先查看源码，右键选择查看源码即可。重要信息皆已被圈出来，我们只需要获取“下一页”，即中代码： import requests from bs4 import BeautifulSoup import

利用Python爬取网络小说（基础）

qq_41234663的博客

05-24

883

Python 爬取网络小说（笔趣阁小说）爬虫的一般步骤（小白见解） 1.通过requests库获取网页内容 2.通过BeautifulSoup库解析网页内容 3.在网站源码里找到要爬取的内容 4.成功 ps:建议还是学一部分网页知识之后再来学爬虫更好理解一些 import requests import bs4 from bs4 import BeautifulSoup import os def getHTMLText(url): try: r = requests.get(ur

[Python]网络小说爬取、爬虫

weixin_43847567的博客

04-25

264

1.源代码 #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : HtmlParser.py # @Author: 赵路仓 # @Date : 2020/3/27 # @Desc : # @Contact : 398333404@qq.com import requests from bs4 import Beauti...

Python3网络爬虫，简单爬取网络小说并下载

妖言的博客

04-18

4035

相信我们常常会有想看的小说，但是不能下载，导致无法在没网的环境下观看。。下面将解一下如何用python3爬取网络小说。本文主要是用于学习，希望大家支持正版。首先我们需要两个包，我们分别是requests和beautifulsoup4 我们只要在cmd命令分别运行 pip install requests pip install beautifulsoup4 即可安装，安装好以后我们先去小说网站...

用 Python 爬取网页小说

mycsdn的博客

10-01

922

（5）将提取内容存入 TXT 文档中，其中需要注意存放章节内容时，第一个 p 标签内容为广告，需要跳过（所有的 p 标签内容按顺序存入 context 数组中，context 长度等于 p 标签个数）（4）查看各章节间的跳转关系，最后一章的下一章是列表页面。（1）查看网页编码格式，在 head 标签里能找到。的 div 中的 h1 标签里，采用正则提取。的 div 中的 p 标签里，采用正则提取。章节名存放在 class 为。（3）查看章节内容存放位置。章节内容存放在 id 为。（2）查看章节名存放位置。

python：爬取网络小说，看这一篇就够了

Tom_Jerry__的博客

10-15

5936

代码的主要内容就是通过单个章节的链接获取到回复，之后找到居中格式的div ,获取其中的文本就是先说内容这个时候我们将其写入到txt中，知道完成下载，其中延时是必须的，防止影响网站运行，从而导致踩缝纫机的风险。滤除第一种的时候，我们只需要将章节这个也加入判断即可，滤除第二种错误数据我们就需要强行固定序列了，比如我们强行让它从第一章开始。需要导入的第三方包有两个，是requests和BeautifulSoup,其中一个是用于网页请求的，一个是网页解析的。我们发现其中还是有两个我们不想要的数据。

Python程序设计实例｜爬取网络中的小说

不断学习，不断进步，提高自己

09-22

728