一个简单的python案例,用正则采集小说网站

本文介绍了如何使用Python的requests库和正则表达式模块re来抓取小说网站。首先,请求小说页面并设置编码防止乱码;然后,利用re.findall()获取标题;接着,提取章节列表;最后,遍历章节获取内容,注意过滤无用标签和空格。在使用正则表达式时,要注意贪婪匹配、非贪婪匹配等细节,通过实践和调试提升技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录标题

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

使用Python抓取xx阁小说需要用到 requests 库和正则表达式模块 re,下面是一个具体的实现步骤:

1. 首先需要使用 requests 库请求小说的页面

例如:

import requests

url = 'https://*****.com.cn/book/123456/'
response = requests.get(url)
response.encoding = 'utf-8'

在请求后需注意设置编码,否则可能会出现乱码。

python资料、源码、教程\福利皆: 点击此处跳转文末名片获取

2. 获取小说的标题

可以使用正则表达式模块中的 re.findall() 方法,

例如:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值