正则表达式小应用

最新推荐文章于 2025-06-01 23:57:41 发布

原创最新推荐文章于 2025-06-01 23:57:41 发布 · 363 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

18 篇文章

订阅专栏

正则表达式在处理文本尤其是对文本进行过滤和筛选等工作时很有用，经常用于字符串的匹配等操作。
首先贴出一下常见的正则表达式的应用的情景。
匹配中文字符：[\u4e00-\u9fa5]
匹配由26个英文字符和数字组成的字符串：[a-zA-Z0-9]+
匹配空白行：\n\s*\r
匹配电话号码：\d{3}-\d{8}|\d{4}-\d{7},如0511-4405222或021-87888888

最近处理一个文档，第一步，需要过滤掉中文英文常见标点符号之外的特殊字符。

#python3主要代码
import re
regex = re.compile(u'[^0-9a-zA-Z\u4e00-\u9fa5，。！？；）（”“＂,:：……]')
data_value[i] = regex.sub('',data_value[i])

第二步，去掉重复出现的标点符号。

p = re.compile(r"([，。！？；）（”“＂,:：……]])(\1+)")
data_value[i] = p.sub(r'\1',data_value[i])

第三步，去掉过长的由英文和数字组成的字符串

q = re.compile(r"[a-zA-Z0-9]{10,}")
data_value[i] = q.sub('',data_value[i])

第四步，去掉由数字和字符组成的字符串

r = re.compile(r"[0-9，。！？；）（”“＂,:：……]{2,}")
data_value[i] = r.sub('',data_value[i])

对于中文文档很多情况下还需要进行分词，可以采用结巴分词进行。

#主要分词过程
import jieba
length = len(data)
for i in range(length):
    s = jieba.cut(dataB[i])
    ss = ' '.join(s)
    dataB[i] = ss

文档处理后的结果为：
处理后的文本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BabY虎子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

linux正则表达式，正则表达式分类，元字符，基础正则表达式，扩展正则表达式，正则表达式案例

有人说学习`这个`最好的时间是十年前，有人说最好的时间是现在，众说纷纭...

07-06

1315

上文介绍了通配符1，本文介绍、总结和通配符有着诸多共同点的一类符号，即正则表达式（regular expression）。只是通配符的对象是文件、或目录，而后者对象是文本内容。在很多地方都有正则表达式的身影，它的作用是用来匹配指定式样的内容，个人理解为，正则表达式规定了指定式样pattern，能匹配该指定式样的字符或字符串即为内容，内容的来源可以是文件、某个标准输入等，使用正则表达式（regular expression）的目的就是匹配到了该内容。

JS中的正则表达式（秒懂如何写正则表达式）

百赢出品，必属精品

04-05

1511

正则表达式是用于匹配字符串模式的工具，它是由字符和特殊字符组成的序列。正则表达式通常用于在文本中搜索、匹配或替换特定模式的文本。

参与评论您还未登录，请先登录后发表或查看评论

正则表达式详解及应用

无限进步

06-27

2620

正则表达式是一种字符序列，它定义了一个搜索模式。主要用于字符串模式匹配，如检索、替换、验证字符串。：匹配任意字符（除换行符）。\d：匹配任意数字，等价于[0-9]。\D：匹配任意非数字，等价于[^0-9]。\w：匹配任意单词字符（字母、数字、下划线），等价于。\W：匹配任意非单词字符，等价于。\s：匹配任意空白字符（空格、制表符、换行符）。\S：匹配任意非空白字符。正则表达式是一个强大且灵活的字符串处理工具，通过本文的介绍和示例，相信你已经掌握了正则表达式的基本知识和常见应用。

掌握正则表达式：从基础到实用示例

最新发布

aa_hdkf_vg的博客

06-01

1809

正则表达式（Regular Expression，简称Regex）是一种强大的文本处理工具，它可以帮助开发者高效地进行字符串匹配、查找、替换和分割等操作。在Java中正则表达式的应用场景极为广泛，从简单的表单验证到复杂的文本解析，都离不开正则表达式的支持。虽然之前我也讲过正则表达式，但过于通用，今天本文将专门全面介绍Java中正则表达式的相关知识，从基础语法到高级应用，并结合丰富实例代码，带你深入理解和掌握这一强大工具

Spark SQL中的正则表达式应用

一个8年大数据开发工程师的碎碎念

07-09

5712

正则表达式在Spark SQL中是一个强大而versatile的工具,它不仅能够处理文本数据,还能在ETL流程、数据验证、特征工程等多个方面发挥重要作用。然而,使用正则表达式需要在表达能力和性能之间找到平衡。通过深入理解正则表达式的工作原理,结合Spark SQL的特性,并注意安全性考虑,我们可以更好地利用这一工具来解决复杂的数据处理问题。掌握和灵活运用正则表达式是数据工程师和数据科学家的重要技能。

【oracle】正则表达式

qq_42320804的博客

10-29

3442

oracle正则表达式详细案例

VBA之正则表达式

qq_51982566的博客

01-20

1985

创建正则对象主要是有两种方案：早期绑定和后期绑定，两种方案效果相同可根据爱好自行选择。首先我们来看一下早期绑定，早期绑定非常简单只需要我们在VBA-工具-引用中勾选MicrosoftVBScriptRegularExpressions5.5。然后我们就能像定义变量一样创建正则对象。Setregx=newregexp(或dimregxasnewregexp)首相我们定义了一个名为regx的变量，其类型为RegExp。然后使用set帮他初始化为一个新的RegExp对象。

《正则表达式详解》.pdf

10-11

正则表达式操作可以设置为全局匹配或非全局匹配，大小写敏感或不敏感。 正则表达式的关键组成部分包括： 1. 元字符：特殊的字符，拥有特殊的含义。比如，“^”表示行的开始，“$”表示行的结束，“.”匹配任意单个...

正则表达式(Deelx版)|正则表达式(Deelx版)支持库

07-24

Deelx版是专门为提高正则表达式性能和功能而设计的一个支持库，适用于各种编程语言和应用场景。 1. **正则表达式基本概念** - **模式匹配**：正则表达式的核心在于模式，它是由特殊字符和普通字符组成的字符串，...

qt使用正则表达式限制lineEdit的输入，对正则表达式进行了封装，可以直接引入，工程编译正常

08-08

接下来，我们探讨如何在lineEdit中应用正则表达式。Qt的lineEdit组件是用于接收用户单行文本输入的控件。通常，我们可以通过重载其`textChanged()`信号或者自定义一个槽函数来监控lineEdit的内容变化，并在其中加入...

正则表达式必知必会v_1.0.pdf

01-02

正则表达式是一种强大的文本处理工具，广泛应用于各个领域。下面是对正则表达式的详细解释： 正则表达式的用途 正则表达式主要用于处理文本，提供了两大主要功能：查找和替换。查找功能允许用户根据不同的规则来...

正则表达式基础及Java正则表达式应用PDF

01-14

在本篇文档中，我们将详细介绍正则表达式的基础用法，并结合Java语言应用实例，展示如何使用正则表达式来设计简单的网络爬虫程序。首先，正则表达式的基本组成元素包括字符、限定符、定位符等。其中，字符是构成...

python3打开pkl文件

u010041824的专栏

10-30

2万+

python中带有pickle包对pkl文件进行操作。打开带有中文的pkl文件，需要指定编码格式：import pickle# f = open('dict_word.pkl', 'rb') # for line in f: # print(line) dict_word = pickle.load(open("dict_word.pkl", 'rb'), encoding='utf-8

numpy计算两二维数组距离

u010041824的专栏

12-22

7398

利用numpy可以很方便的计算两个二维数组之间的距离。二维数组之间的距离定义为：X的维度为(a,c),Y的维度为(b,c),Z为X到Y的距离数组,维度为(a,b)。且Z[0,0]是X[0]到Y[0]的距离。Z(m,n)为X[m]到Y[n]的距离。如下图所示。代码如下:#computer the distance between text point x and train point x_train

python3调用百度翻译接口样例

u010041824的专栏

11-15

5243

baidu开放的翻译接口 python语言的demo是2版本的，稍作修改在python3跑了下，并将结果写入文件中。 #coding=utf-8 import http.client import hashlib from urllib imp

python对xml的处理和文件的写入操作1

u010041824的专栏

11-21

2925

今天查找了一些python对xml文档的处理，之前用过java对xml文件进行处理，这个以后应该还会用到，这里先记录一下最基本的用到的操作。要解析的xml文档格式为可以先用notepad进行一些处理。代码为： try: import xml.etree.cElementTree as ET except ImportError: import xml.etre

Java正则表达式实例应用解析

### Android中的Java正则表达式应用 1. **输入验证** - 在Android开发中，可以用正则表达式来验证用户输入，例如邮箱地址、电话号码、用户名等是否符合特定的格式要求。 2. **文本处理** - 处理来自网络请求、...