在python中使用正则表达式实现中英文符号互换

Python正则表达式实现中英文符号互换

最新推荐文章于 2023-03-22 19:20:39 发布

原创

最新推荐文章于 2023-03-22 19:20:39 发布 · 3.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#re #sub #符号

本文介绍了如何在Python中利用正则表达式和unicode编码规律，高效地实现中英文符号的互换。通过ord()和chr()函数结合re.sub，可以优雅地完成这一任务，避免了逐个判断和替换的繁琐过程。文中给出了具体代码示例，展示了替换前后的效果。

在进行中文信息处理时，经常会发现有人错误地使用了英文半角的标点符号，给下一步处理造成一些麻烦。如果逐个地判断（使用循环方法）后进行替换，是一件非常费时费力的事情；当出现新的情况时，进行程序的更新也比较麻烦。利用unicode编码的规律和正则表达式中的替换（re.sub）功能，可以较为优雅地达到这个目的。

标点符号在unicode中的编码规律

每个符号都有一个唯一的unicode编码，可以通过内置函数ord()进行查询。如：

>>> ord('?')
63

半角符号符号和全角符号的编码有一个规律：英文符号的unicode编码+65248＝中文符号的unicode编码。
从编码转到具体的符号，可以使用函数chr()。如：

>>> chr(63)
'?'
>>> chr(63+65248)
'？'

空格除外，具体可查看网址：https://blog.youkuaiyun.com/zinnc/article/details/68524551

正则表达式的sub函数

re.sub共有5个参数：
第一个参数是pattern，即要匹配的模式；
第二个参数是repl，即拟替换成的对象，可以是字符串，也可以是函数；
第三个参数是string，即源字符串；
第四个参数是count，即替换的次数，0的话就表示全部替换；
第五个参数是flags，即相应的选项。
具体可参考：https://www.cnblogs.com/nkwy2012/p/6548812.html

本文主要是利用到了第二个参数。代码如下

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。