10、文本编码与正则表达式基础全解析

最新推荐文章于 2025-12-04 17:53:34 发布

fox11

最新推荐文章于 2025-12-04 17:53:34 发布

阅读量1

点赞数

CC 4.0 BY-SA版权

分类专栏：用Ruby解锁文本的力量文章标签：文本编码正则表达式 Ruby

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fox11/article/details/155544807

用Ruby解锁文本的力量专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本编码与正则表达式基础全解析

1. 文本编码问题

在处理文本时，遇到无效字节序列是非常常见且令人沮丧的事情。尤其是当文本经历多个环节流转时，比如从用户计算机到网页浏览器，再到网页应用程序、数据库，之后导出为 CSV 文件或其他格式，最后进入我们的程序。每一个环节都有可能引入编码错误。当我们只想处理文本而不想过多纠结于纠正这些错误时，一些处理方法就显得很有用。

1.1 检测编码

之前我们处理的是已知字符格式的转换问题，即当我们知道两种格式时，将文本从一种格式转换为另一种格式。但有时我们并不清楚处理的文本具体是什么编码，这时就需要猜测字符编码。理想情况下，我们希望能遵循一种通用逻辑来猜测文本的字符编码，如果不是 UTF - 8，就将文本转换为 UTF - 8。

在 Ruby 中，我们可以使用 Charlock Holmes 库来进行编码猜测。这个库由 Brian Marino 开发，它封装了成熟的国际组件 Unicode（ICU）库。

安装 Charlock Holmes 就像安装其他 Ruby gem 一样，其 gem 名称为 charlock_holmes 。安装好该库及其依赖的 ICU 库后，使用起来很简单。通常，我们会使用它为 String 类添加的方法。以下是具体示例：

require "charlock_holmes/string"
string = "H\xC3\xABll\xC3\xB8 w\xC3\xB4rld"
string.detec

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。