一个简单的python案例，用正则采集小说网站

最新推荐文章于 2024-12-11 08:30:00 发布

原创

最新推荐文章于 2024-12-11 08:30:00 发布 · 314 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据库 #开发语言 #pycharm #学习

本文介绍了如何使用Python的requests库和正则表达式模块re来抓取小说网站。首先，请求小说页面并设置编码防止乱码；然后，利用re.findall()获取标题；接着，提取章节列表；最后，遍历章节获取内容，注意过滤无用标签和空格。在使用正则表达式时，要注意贪婪匹配、非贪婪匹配等细节，通过实践和调试提升技能。

目录标题

- - 前言
  - 尾语

前言

嗨喽~大家好呀，这里是魔王呐 ❤ ~!

使用Python抓取xx阁小说需要用到 requests 库和正则表达式模块 re，下面是一个具体的实现步骤：

1. 首先需要使用 requests 库请求小说的页面

例如：

import requests

url = 'https://*****.com.cn/book/123456/'
response = requests.get(url)
response.encoding = 'utf-8'

在请求后需注意设置编码，否则可能会出现乱码。

python资料、源码、教程\福利皆: 点击此处跳转文末名片获取

2. 获取小说的标题

可以使用正则表达式模块中的 re.findall() 方法，

例如：

import re

title_pattern = re.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

魔王不会哭

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫数据抽取：使用正则表达式提取网页内容

CyberNova的博客

09-08

497

通过使用正则表达式，我们可以方便地从HTML源代码中提取出我们需要的数据。然而，在处理复杂的HTML结构时，使用专门的HTML解析库会更加方便和可靠。现在我们已经获取到了网页的HTML源代码，接下来我们可以使用正则表达式来提取我们需要的数据。接下来，我们需要获取网页的HTML源代码。除了提取链接，我们还可以使用正则表达式来提取其他类型的数据，比如提取电子邮件地址、日期、价格等等。以上示例只是展示了正则表达式的一小部分功能，正则表达式的语法非常强大，可以根据不同的需求进行灵活的匹配和提取。

Python 中 BeautifulSoup 的正则表达式结合使用

Python编程之道的博客

07-11

654

本文旨在全面介绍BeautifulSoup库与正则表达式在Python中的结合使用方法，帮助开发者更高效地从HTML/XML文档中提取和处理数据。内容涵盖基础用法到高级技巧，包括性能优化和实际应用案例。文章首先介绍BeautifulSoup和正则表达式的基础知识，然后深入讲解两者的结合使用方法，接着通过实际案例展示应用场景，最后讨论性能优化和最佳实践。：一个Python库，用于从HTML和XML文档中提取数据正则表达式(Regex)：一种强大的文本模式匹配和处理的工具HTML解析。

参与评论您还未登录，请先登录后发表或查看评论

Python网络数据采集——正则表达式

思过留痕

08-23

1214

计算机科学里曾经有个笑话：“如果你有一个问题打算用正则表达式（regular expression，通常简写regex）来解决，那么就是两个问题了。” regex——你值得拥有！学正则表达式不一定只会用在爬虫，当然爬虫也未必会用到正则表达式（能找到捷径就不需要啊），学正则可以处理一些杂乱的文本，从杂乱的信息中找出些许规律性并批量过滤出自己想要的东东。可

初识Python爬虫，使用正则表达式提取数据

m0_75129356的博客

10-19

1864

正则：用来匹配字符产的一门表达式语言1.正则支持普通字符2.元字符，即一个符号匹配部分对应内容\d 匹配0-9的数字 \d\d 一行提取2个数字\w 匹配数字、字母、下划线（0-9、a-z、_）\W \w取反\D \d取反[abc] 自定义匹配abc[^abc 】（英文的】）[abc]取反. 除了换行符都可以匹配。量词控制，前面元字符出现的频次+，前面的元字符出现1次或多次*，前面的元字符出现0次或多次。贪婪匹配，尽可能多的匹配数据？前面的元字符，出现0次或一次。

《Python 网络数据采集》正则表达式

君只见独不见的专栏

03-21

559

如果你用过 Python 2.x 里的 urllib2 库，可能会发现 urllib2 与 urllib 有些不同。在 Python 3.x 里，urllib2改名为 urllib，被分成一些子模块： urllib.request 、urllib.parse 和 urllib.error 。尽管函数名称大多和原来一样，但是在用新的 urllib 库时需要注意哪些函数被移动到子模块里了。 u...

python中三大数据提取方法（3）----正则表达式re库

ljf520lhy的博客

11-15

1802

正则表达式详细使用方法，附带例子

Python网络爬虫案例实战：解析网页：正则表达式解析网页

andyyah晓波的博客

08-12

1661

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言中，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。图5-1展示了使用正则表达式进行匹配的流程。正则表达式的大致匹配过程是：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。

一个简单的python爬虫案例

最新发布

08-12

本案例将通过一个简单的Python爬虫示例，展示如何使用requests组件查找网页中的表格数据，并提取所需信息以生成文本文件。首先，需要明确什么是Python爬虫。Python爬虫是一种利用Python编程语言编写的程序，它能够...

Python爬虫——使用正则表达式爬取一本喜欢的小说

橘子女侠

01-29

3998

使用正则表达式爬取一本喜欢的小说这个爬虫的案例是对正则表达式的运用，通过这个案例，我们可以对正则表达式有更深入的了解。 1. 信息来源：努努书坊。爬取的小说：三国演义。链接为：https://www.kanunu8.com/files/old/2011/2447.html 2. 解析需要爬取的信息：进入主页，我们可以看到如上图所示的信息，我们需要爬取的就是上图中的所有内容。即每...

python自动化中正则表达式提取（适用于提取文本结果）

weixin_44249280的博客

07-26

886

对于结果是json格式的我们经常使用jsonpath，但是很多时候我们需要从一些文本中提取数据，这个时候正则表达式的提取就很重要，这边主要分享一些正则表达式的提取方法和应用场景的实践，主要介绍两种用法re.search()跟re.findall()

学100种基本爬虫项目--使用正则表达式来获取整篇小说

Volcano99的博客

07-15

1441

我们的目标是从"bbiquge"网站上获取某本小说的全文内容，并保存为.txt文件。我们将使用requests库进行网络请求，使用re和parsel库来解析页面，并把小说内容保存到本地。：对每一个提取到的章节链接，发送GET请求获取章节页面的HTML，然后解析HTML以提取章节标题和内容。最后，将提取到的标题和内容写入到本地的txt文件。最后，打开（如果不存在则创建）一个txt文件，并以追加的模式将标题和内容写入文件。在这段代码中，首先是拼接出每个章节的URL（），以及发送HTTP请求时使用的请求头（

c#使用正则表达式获取TR中的多个TD_Python爬虫基础教程——正则表达式抓取入门...

weixin_39853590的博客

11-21

648

点击上方蓝色文字关注我们吧有你想要的精彩作者| 東不归出品 | Python知识学堂大家好，因某些原因深度学习篇要停更一段时间，所以我们就把Python爬虫的课程提前一下。不知道大家对爬虫方面有什么了解？本篇文章主要讲述爬虫一些需要注意的地方、开发环境以及使用正则表达来抓取网站上的信息等。简单介绍网络爬虫简单的解释就是从网站上获取相关的信息为已所用的一个自动化处理的方式；合法性虽然在2...

python 运用requests库以及正则表达式爬取小说实例以及心得

bo_Wen_h的博客

02-14

6219

笔者标注部分：笔者技艺不精，若文章中有错误之处，还望各位大佬海涵，笔者希望与大家共同进步此外笔者推荐python3以上的编辑器，因为过程中会出现一些编码问题,python2系列可能会将问题复杂化，笔者采用python3.6进行演示爬取网站内容：某网站小说（至于哪个网站，自行看代码） robots协议：人工查看,无robots协议,可合法的对网站的爬取（若您对robots协议不熟悉，可询问小杜...

Python爬虫——用正则表达式爬取小说内容

Albert的博客

03-23

1770

灵武封神_第一章死里逃生_奇幻·玄幻小说阅读页 - 纵横中文网 import requests import re def get_one_page(url): headers = { 'User_Agent': 'Mozilla/5.0 (Macintosh; Inter Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, li...

python爬虫篇（项目案列讲解-爬取小说）

m0_65482549的博客

06-24

4617

学习一下思路：1.我们进入需要爬取到的小说界面，右键开发者工具，选中元素显示，然后找到需要爬取的小说章节模块在代码中的位置。将a标签中的文本内容复制，然后ctrl+u打开源代码 ctrl+f将刚刚的文本内容复制查找是否有这个模块。（比较爽的是，刚好这里有，可以不需要去查看网络请求和script代码了）那么我们现在可以可以来获取源代码了编码格式的查看方式。获取源代码之后，我们现在需要去解析一下这串源代码。

数据抓取与解析：用Python轻松获取网页信息

yfmsx的博客

12-11

638

在信息爆炸的现代，数据抓取与解析成为了获得和分析数据的重要手段。无论是进行市场调研、收集新闻资讯，还是为数据科学项目收集数据，掌握有效的数据抓取与解析技巧都显得尤为重要。如果你觉得这篇文章对你有帮助，请分享给你的朋友，或者在评论区留下你的看法！库实现数据抓取，探讨常见的网页解析方式，包括正则表达式、XPath和CSS选择器解析。同时，我们还会指出新手在实践中容易遇到的坑，帮助你在数据抓取之路上更加顺利。以下是三种常见的解析方法。通过本文的讨论，我们希望你对Python的数据抓取和解析有了深入的了解。

用正则表达式爬取小说盗墓笔记

weixin_40449639的博客

03-11

1272

# -*- coding: utf-8 -*- import requests, os, re, codecs #下载网页信息 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_en...

Python爬取全书网小说全文——正则表达式的应用

m0_37940048的博客

03-30

2287

1. 引言各位读者新年好，今天给大家带来的案例是爬取全书网小说全文，主要用到了正则表达式。我们知道，正则表达式一般用来进行格式化的精确匹配，用来爬取多文本的内容非常方便。本次采用面向过程的方法，理解起来较为简单。 2. 代码实现过程首先进入全书网（网址：https://www.xs4.cc/），随便选一篇小说，比如这个《我在古代日本当剑豪》这一偏小说。点进去之后可以看到已经更新到352章了。接下来就是正式爬取的过程了，总共分为五个步骤： 1 获取小说列表页面源代码 2 获取每章的URL 3 获

python爬虫正则教程_Python爬虫之正则表达式

weixin_28871989的博客

02-21

265

爬虫——爬虫中使用正则表达式下面我们尝试爬取内涵段子网站：http://www.neihan8.com/article/list_5_1.html打开之后，当你进行翻页的时候，不难注意到，url地址的变化：第一页url: http: //www.neihan8.com/article/list_5_1 .html第二页url: http: //www.neihan8.com/article/lis...