python正则提取特定标签内的字符

最新推荐文章于 2025-05-20 11:32:35 发布

weixin_34087307

最新推荐文章于 2025-05-20 11:32:35 发布

阅读量877

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：https://my.oschina.net/raddleoj/blog/810472

本文探讨了如何使用正则表达式高效准确地提取特定文本数据。通过不断优化正则表达式的模式，最终实现了对[BEGIN]和[END]标签间内容的有效提取，并分享了从贪婪到非贪婪匹配的实践过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

python 3.5.2

提取下面数据多个组合

[BEGIN]

[b]*****[e]

[b]-------[e]

[b]XXX

DDD

FFF

[e]

[END]

类似这种数据，提取[BEGIN] 和 [END]中间的内容。

思想，两个标签之间任意字符串，且不含有结尾标签组合的结构。

如果中间有结尾处的字符组合那就没戏了！

r'\[BEGIN\]([\s\S]([^D]|[^N]D|[^E]ND)*)\[END\]'

\[BEGIN\] 开头

([\s\S]([^D]|[^N]D|[^E]ND)*) 中间

[\s\S] 任意字符串 ([^D]|[^N]D|[^E]ND) 不含有END组合的 * 任意个

\[END\] 结尾处字符串

xx = """[BEGIN]
[L_B]111dsfasfa 黄s423333[L_E]
[END]
[BEGIN]
[L_B]222dsfas  23444[L_E]
[END]"""
y = re.findall(r'\[BEGIN\]([\s\S]([^\]][^D]\]|[^N]D\]|[^E]ND\]|[^\[]END\])*)\[END\]', xx, re.M)
print(y)

上面的内容比之前讲解的内容稍长排除了 [END] 组合

但是可见后标签越长匹配串越长效率越低

之后又经过改进最终如下

r'\[BEGIN\]([\s\S.]*?)\[END\]'

([\s\S.]*?) 加上？号不贪婪匹配点放在方括号内

基本上完美了。这应该是最终解决方案。

研究学习到了。

转载于:https://my.oschina.net/raddleoj/blog/810472

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34087307

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python中如何使用正则表达式提取数据

ai520wangzha的博客

06-28

7393

以上为个人经验，希望能给大家一个参考。点击拿去50G+学习视频教程100+Python初阶、中阶、高阶电子书籍。

Python正则提取字符串

abcd_efg1234567的博客

05-31

3241

import re str1 = 'sddf3gwrw' r = re.match('\d',str1) #匹配单个数字 print(r) r = re.search('\d',str1) print(r) print(r.group()) str1 = 'sddf3g889wrw' r = re.match('\d+',str1) print(r) str1 = 'sddf3999g889wrw' r = re.search('\d+',str1) # 匹配连续多个数字 print(r) str1.

参与评论您还未登录，请先登录后发表或查看评论

正则提取出HTML正文（剔除标签内容）python实现

pingzi1990的专栏

12-03

5399

正则提取出HTML正文（剔除标签内容）python实现

如何在 Python 中从字符串中提取部分内容

D0126_的博客

11-27

1875

在 Python 中从字符串中提取部分内容有多种方法，我们可以根据具体情况选择合适的方法。正则表达式是一种非常强大的工具，可以用于匹配复杂的字符串模式。Pyparsing 是一个专门用于解析字符串的库，它提供了丰富的语法定义语言，可以用来定义复杂的字符串模式。AST（抽象语法树）是一种表示程序结构的数据结构，我们可以使用 AST 来解析字符串，并将字符串中的信息提取出来。字符串操作是一种简单的方法，可以用于提取一些简单的字符串信息。函数式编程是一种编程范式，它强调使用函数和函数组合来解决问题。

python 正则提取HTml标签文本内容的

我叫张大大爷的博客

01-23

1万+

方法一: import re title = '<a helf="www.baidu.com" title="河南省">你好</a>' res = re.findall(r'<a.*?>(.*?)</a>', title) print(res) 方法二:

Python 使用正则提取字符串

yudiandian2014的专栏

07-10

903

Python 使用正则提取字符串

使用Python 正则匹配两个特定字符之间的字符方法

09-19

### 使用Python正则表达式匹配两个特定字符之间的字符方法 #### 背景与目标在文本处理领域，正则表达式是一种强大的工具，能够帮助我们高效地完成字符串的搜索、替换等操作。Python作为一门功能强大且易用的语言...

python使用正则表达式匹配字符串开头并打印示例

10-20

在Python中使用正则表达式匹配字符串开头并打印的示例涉及到几个重要的知识点，包括正则表达式的编写、Python中的正则表达式库re的使用、以及如何利用正则表达式提取特定模式的字符串。以下是对这些知识点的详细介绍...

Python正则表达式(re模块)入门：文本匹配与提取全面指南

热门推荐

qq_35866413的博客

08-06

9万+

前文提到了Python爬虫框架之一的——Scrapy框架安装和相关命令的简单使用,熟悉了起码的实用流程。今天我们进行一些细节上的总结。如题，在我们要获取目标文本所在的标签时，通常有几种方法，下面我们挨个举例说明各种用法的使用：以百度贴吧小说吧中的一篇小说为例,我们开始进行爬虫举例,该小说链接为:https://tieba.baidu.com/p/5702862812?pn=1 ...

python正则获取网页标签里面的内容

我的博客

02-25

952

# -*- coding:utf-8 -*- import re str = "<option value=2018010401>2018级播音与主持艺术1班</option><option value=2018080601>2018级财务管理1班</option><option value=2018080602>2018级财务管理2班</option><option value=2018080603>2018级财务管理3班

Python-正则表达式提取想要的内容

qq_32649321的博客

04-26

3435

可直接参考：https://blog.youkuaiyun.com/Guo_ya_nan/article/details/80920007 1、正则表达式：（1）\d* 匹配重复0次或多次数字例如:可能为空或任意数字（2,3。。。。）（2）\d+ 匹配重复1次或多次数字例如:可能为1个或多个数字 1,23,234,2345，… （3）\d? 匹配重复次个或者一次数字例如：可能为空或者任意的一个数字（1,2，。。。）（4）\d{8}匹配重复8次数字例如：123456768 （

Python使用BeautifulSoup提取特定HTML标签内容

SDUTACM的博客

08-23

1万+

将网页的HTML元代码down到本地，然后读取 #coding=utf-8 from bs4 import BeautifulSoup import datetime def getYesterdayTime(): now_time=datetime.datetime.now() yes_time = now_time + datetime.timedelta(da

python3用BeautifulSoup用字典的方法抓取a标签内的数据

weixin_34351321的博客

11-13

2913

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba...

爬虫提取标签的几种方式

chang995196962的博客

10-25

9037

我最喜欢用两种解析方式 #第一种解析方式 etree+xpath 提取匹配标签 a = &quot;&amp;lt;div class='a'&amp;gt;123&amp;lt;p&amp;gt;1455555&amp;lt;/p&amp;gt;&amp;lt;/div&amp;gt;&quot; from lxml import e

python正则表达式匹配html指定标签内容_python正则表达式匹配html指定标签内容_Python使用正则表达式去除(过滤)HTML标签提...

weixin_36394468的博客

02-21

3121

Python使用正则表达式去除(过滤)HTML标签提取文字功能，正则表达式是一个特殊的字符序列，可以帮助您使用模式中保留的专门语法来匹配或查找其他字符串或字符串集。正则表达式在UNIX世界中被广泛使用。下面给大家介绍下Python使用正则表达式去除(过滤)HTML标签提取文字，具体代码如下所示：# -*- coding: utf-8-*-import re##过滤HTML中的标签#将HTML中标...

Python正则表达式详解：元字符与应用

正则表达式是一种强大的文本处理工具，它利用字符和特殊符号组合成模式来描述一类字符串，广泛应用于文本检索、筛选和修改等场景。正则表达式的出现是由于计算机处理文本任务的增加，特别是根据内容进行高效查找的...