Python实用技法第31篇：文本过滤和清理

最新推荐文章于 2024-07-23 17:46:47 发布

原创

最新推荐文章于 2024-07-23 17:46:47 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Python #爬虫 #数据挖掘 #编程语言

本文探讨了如何处理Web表单中不规范的文本，如'p yt h ö n'，介绍了使用Python的字符串函数、replace、re.sub、unicodedata.normalize及translate等方法进行文本清理，包括删除Unicode组合字符、去除音标和转换数字。文中还讨论了不同清理方法的性能，并指出在实际应用中应根据需求进行性能测试选择合适的方法。

问题

某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本，我们想以某种方式将其清理掉。

解决方案

文本过滤和清理所涵盖的范围非常广泛，涉及文本解析和数据处理方面的问题。在非常简单的层次上，我们可能会用基本的字符串函数（例如str.upper()和str.lower()）将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成，它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符，或者去掉音符标志。要完成这些任务，可以使用常被忽视的str.translate()方法。为了说明其用法，假设有如下这段混乱的字符串：

>>> s = 'pytĥon\fis\tawesome\r\n'
>>> s
'pytĥon\x0cis\tawesome\r\n'
>>>
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

第一步是清理空格。要做到这步，先建立一个小型的转换表，然后使用translate()方法：

>>> remap = {
...      ord('\t') : ' ',
...      ord('\f') : ' ',
...      ord('\r') : None        # Deleted
... }
>>> a = s.translate(remap)
>>> a
'pytĥon is awesome\n'

可以看到，类似t和f这样的空格符已经被重新映射成一个单独的空格。回车符r已经完全被删除掉了。

可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如，我们把所有的Unicode组合字符都去掉：<