Perl如何处理字符串 z

本文详细介绍了Perl语言中Unicode字符串的处理方法,包括字符串的两种形式、UTF8标志位的作用及设置方法、字符串转码技巧等内容。

在Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(string)

本文内容适用于perl 5.8及其以上版本.



perl internal form



在Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只熟悉两种编码: Ascii(octets)和utf8(string).



utf8 flag



那么perl如何确定一个字符串是octets还是utf8编码的字符串呢? perl可没有什么智能, 他完全是靠字符串上的utf8 flag. 在perl内部, 字符串结构由两部分组成: 数据和utf8 flag. 比如字符串"中国"在perl内部的存储是这样:



utf8 flag 数据

On 中国



假如utf8 flag是On的话, perl就会把中国当成utf8字符串来处理, 假如utf8 flag为Off, perl就会把他当成octets来处理. 所有字符串相关的函数包括正则表达式都会受utf8 flag的影响. 让我们来看个例子:



程序代码:

use Encode;

use strict;



my $str = "中国";

Encode::_utf8_on($str);

print length($str) . "/n";

Encode::_utf8_off($str);

print length($str) . "/n";



运行结果是:



程序代码:

2

6



这里我们使用Encode模块的_utf8_on函数和_utf8_off函数来开关字符串"中国"的utf8 flag. 可以看到, utf8 flag打开的时候, "中国"被当成utf8字符串处理, 所以其长度是2. utf8 flag关闭的时候, "中国"被当成octets(字节数组)处理, 出来的长度是6(我的编辑器用的是utf8编码, 假如你的编辑器用的是gb2312编码, 那么长度应该是4).



再来看看正则表达式的例子:



程序代码:

use Encode;

use strict;



my $a = "china----中国";

my $b = "china----中国";

Encode::_utf8_on($a);

Encode::_utf8_off($b);

$a =~ s//W //g;

$b =~ s//W //g;

print $a, "/n";

print $b, "/n";



运行结果:



程序代码:

Wide character in print at unicode.pl line 10.

china中国

china



结果第一行是一条警告, 这个我们稍后再讨论. 结果的第二行说明, utf8 flag开启的情况下, 正则表达式中的/w能够匹配中文, 反之则不能.



如何确定一个字符串的utf8 flag是否已开启? 使用Encode::is_utf8($str). 这个函数并不是用来检测一个字符串是不是utf8编码, 而是仅仅看看它的utf8 flag是否开启.



eq



eq是一个字符串比较操作符, 只有当字符串的内容一致并且utf8 flag的状态也是一致的时候, eq才会返回真.



理论就是上面这些, 一定要搞明白, 记清楚! 下面是实际应用.



unicode转码



假如你有一个字符串"中国", 它是gb2312编码的. 假如它的utf8 flag是关闭的, 它就会被当成octets来处理, length()会返回4, 这通常不是你想要的. 而假如你开启它的utf8 flag, 则它会被当做utf8编码的字符串来处理. 由于它本来的编码是gb2312的, 不是utf8的, 这就可能导致错误发生. 由于gb2312和utf8内码范围部分重叠, 所以很多时候, 不会有错误报出来, 但是perl可能已经错误地拆解了字符. 严重的时候, perl会报警, 说某个字节不是合法的utf8内码.



解决的方法很显然, 假如你的字符串本来不是utf8编码的, 应该先把它转成utf8编码, 并且使它的utf8 flag处于开启状态. 对于一个gb2312编码的字符串, 你可以使用



程序代码:

$str = Encode::decode("gb2312", $str);



来将其转化为utf8编码并开启utf8 flag. 假如你的字符串编码本来就是utf8, 只是utf8 flag没有打开, 那么你可以使用以下三种方式中的任一种来开启utf8 flag:



程序代码:

$str = Encode::decode_utf8($str);

$str = Encode::decode("utf8", $str);

Encode::_utf8_on($str);



最后一种方式效率最高, 但是官方不推荐. 以下划线开头的函数是内部函数, 出于礼貌, 一般不从外部调用.



字符串连接



. 是字符串连接操作符. 连接两个字符串时, 假如两个字符串的utf8 flag都是Off, 那么结果字符串也是Off. 假如其中任何一个字符串的utf8 flag是On的话, 那么结果字符串的utf8 flag将是On. 连接字符串并不会改变它们原来的编码, 所以假如你把两个不同编码的字符串连在一起, 那么以后不管对这个字符串怎么转码, 都总会有一段是乱码. 这种情况一定要避免, 连接两个字符串之前应该确保它们编码一致. 如有必要, 先进行转码, 再连接字符串.



perl unicode编程基本原则



对于任何要处理的unicode字符串, 1)把它的编码转换成utf8; 2)开启它的utf8 flag



字符串来源



为了应用上面说到的基本原则, 我们首先要知道字符串本来的编码和utf8 flag开关情况, 这里我们讨论几种情况.



1) 命令行参数和标准输入. 从命令行参数或标准输入(STDIN)来的字符串, 它的编码跟locale有关. 假如你的locale是zh_CN或zh_CN.gb2312, 那么进来的字符串就是gb2312编码, 假如你的locale是zh_CN.gbk, 那么进来的编码就是gbk, 假如你的编码是zh_CN.UTF8, 那进来的编码就是utf8. 不管是什么编码, 进来的字符串的utf8 flag都是关闭的状态.



2) 你的源代码里的字符串. 这要看你编写源代码时用的是什么编码. 在editplus里, 你可以通过"文件"->"另存为"查看和更改编码. 在linux下, 你可以cat一个源代码文件, 假如中文正常显示, 说明源代码的编码跟locale是一致的. 源代码里的字符串的utf8 flag同样是关闭的状态.



假如你的源代码里含有中文, 那么你最好遵循这个原则: 1) 编写代码时使用utf8编码, 2)在文件的开头加上use utf8;语句. 这样, 你源代码里的字符串就都会是utf8编码的, 并且utf8 flag也已经打开.



3) 从文件读入. 这个毫无疑问, 你的文件是什么编码, 读进来就是什么编码了. 读进来以后, utf8 flag是off状态.



4) 抓取网页. 网页是什么编码就是什么编码, utf8 flag是off状态. 网站的编码可以从响应头里或者html的http://www.sina.com.cn";



eval {my $str2 = $str; Encode::decode("gbk", $str2, 1)};

print "not gbk: $@/n" if $@;



eval {my $str2 = $str; Encode::decode("utf8", $str2, 1)};

print "not utf8: $@/n" if $@;



eval {my $str2 = $str; Encode::decode("big5", $str2, 1)};

print "not big5: $@/n" if $@;



输出:



程序代码:

not utf8: utf8 "/xD0" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.



not big5: big5-eten "/xC8" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.



我们给decode函数传递了第三个参数, 要求有异常字符的时候报错. 我们用eval捕捉错误, 转码失败说明字符串本来不是这种编码. 另外注重我们每次都把$str拷贝到$str2, 这是因为decode第三个参数为1时, decode以后, 传给它的字符串参数(第二个参数会被清空). 我们拷贝一下, 这样每次被清空的都是$str2, $str不变.



来看结果, 既然不是utf8, 也不是big5, 那就应该是gbk了. 对于其他不知编码的字符串, 也可以使用这种方法来猜. 不过因为几种编码的内码范围都差不多, 所以假如字符串比较短, 就可能出不了异常字符, 所以这个方法只适用于大段的文字.



输出



字符串在程序内被正确地处理后, 要展现给用户. 这时我们需要把字符串从perl internal form转化成用户能接受的形式. 简单地说, 就是把字符串从utf8编码转换成输出的编码或表现界面的编码. 这时候, 我们使用$str = Encode::encode('charset', $str);. 同样可以分为几种情况.



1) 标准输出. 标准输出的编码跟locale一致. 输出的时候utf8 flag应该关闭, 不然就会出现我们前面看到的那行警告:



程序代码:

Wide character in print at unicode.pl line 10.



2) GUI程序. 这个应该是不用干什么, utf8编码, utf8 flag开启就行. 没有实际测试过.



3) 做http post. 看网页表单要求什么编码. utf8 flag开或关无所谓, 因为http post发送出去的只是字符串中的数据部分, 不管utf8 flag.



PerlIO



PerlIO为我们的输入/输出转码提供了便利. 它可以针对某个文件句柄, 输入的时候自动帮你转码并开启utf8 flag, 输出的时候, 自动帮你转码并关闭utf8 flag. 假设你的终端locale是gb2312, 看下面的例子:



程序代码:

use strict;

binmode(STDIN, ":encoding(gb2312)");

binmode(STDOUT, ":encoding(gb2312)");

while (<>) {

chomp;

print $_, length, "/n";

}



运行后输入"中国", 结果:



程序代码:

中国2



这样我们就省去了输入和输出时转码的麻烦. PerlIO可以作用于任何文件句柄, 具体请参考perldoc PerlIO.



相关API



都是Encode模块的:



$octets = encode(ENCODING, $string [, CHECK]) 把字符串从utf8编码转成指定的编码, 并关闭utf8 flag.



$string = decode(ENCODING, $octets [, CHECK]) 把字符串从其他编码转成utf8编码, 并开启utf8 flag, 不过有个例外就是, 假如字符串是仅仅ascii编码或EBCDIC编码的话, 不开启utf8 flag.



is_utf8(STRING [, CHECK]) 看看utf8 flag是否开启. 假如第二个参数为真, 则同时检查编码是否符合utf8. 这个检测不一定准确, 跟decode方式检测效果一样.



_utf8_on(STRING) 打开字符串的utf flag



_utf8_off(STRING) 关闭字符串的utf flag



最后两个是内部函数, 不推荐使用.



参考perldoc Encode.



utf8和utf-8



前面我们提到的一直都是utf8. 在perl中, utf8和utf-8是不一样的. utf-8是指国际上标准的utf-8定义, 而utf8是perl在国际标准上做了一些扩展, 能兼容的内码要比国际标准的多一些. perl internal form使用的是utf8. 另外顺便提一下, 字符集的名称是不区分大小写的并且"_"和"-"是等价的.



EBCDIC



EBCDIC是一套遗留的宽字符解决方案, 不同于unicode, 它不是Ascii的超集. 上面介绍的方案并不完全适用于EBCDIC. 关于EBCDIC, 请参考perldoc perlebcdic.


<script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script>
<think> 首先,用户的问题是:“请问Perl 替换字符串结尾分号的方法”,意思是用户想知道如何使用Perl语言替换字符串结尾的分号。 从系统级指令中,我需要: - 所有行内数学表达式使用$...$格式(但这里可能不涉及数学)。 - 独立公式使用$$...$$格式(同样,可能不适用)。 - LaTeX语法正确(但这是文本问题)。 - 使用中文回答。 - 生成相关问题。 - 在回答中引用的段落末尾自然地添加引用标识,例如[^1]。 用户提供了几个引用: - 引用[1]:展示了使用Perl的s///操作符替换字符串。 - 引用[2]:关于mod_rewrite和URI转义,与Perl替换相关。 - 引用[3]:提供了Perl代码示例,用于URL编码和解码,包括使用s///进行替换。 - 引用[4]:关于命令替换和反引号,与Perl替换不直接相关。 用户的上一次问题和我的回答没有被提供;用户说:“上述引用仅供参考,并不是用户真正的需求,请尽可能多的参考用户上一次的问题和你的回答。” 但没有给出对话历史。所以,我必须基于当前查询回答。 关键点是:用户想替换字符串结尾的分号。在Perl中,这可以通过正则表达式实现。 从引用[3],有一个例子展示了使用s///进行操作: - $url =~ s/([^A-Za-z0-9])/sprintf("%%X", ord($1))/seg; - 这用于URL编码,但原理相同。 要替换字符串结尾的分号: - 结尾的分号可以用正则表达式锚定到字符串的结尾。 - 在Perl中,使用$锚定字符串结尾。 所以,Perl代码示例: - 假设有一个字符串 $str = "hello;"; - 替换结尾的分号:$str =~ s/;$//; 解释: - s/;$// 意思是:替换模式为分号后跟字符串结尾的空字符串(即删除分号)。 - 如果想替换为其他内容,比如为空字符串删除它,或者替换为其他字符。 完整示例: perl $str = "example;"; $str =~ s/;$//; # 这会删除结尾的分号 print "$str\n"; # 输出:example 或者替换为其他东西: $str =~ s/;$/;/; # 这没有变化,除非替换字符串不同 $str =~ s/;$/ /; # 替换为空格 在引用[3]中,有用到/e修饰符,但这里不需要,因为不需要计算替换部分。 用户提到“结尾分号”,意思是字符串结尾的分号。所以,锚定到结尾很重要。 现在,回答结构: - 我需要清晰地解释方法。 - 提供代码示例。 - 使用中文。 - 生成相关问题。 - 添加引用标识:用户提供了引用,我应该自然地引用它们。 可能的引用点: - 引用[1] 展示了s///的基本用法。 - 引用[3] 展示了更复杂的替换,包括正则表达式。 回答大纲: 1. 简要解释:在Perl中,使用正则表达式的s///操作符可以替换字符串中的模式。要替换字符串结尾的分号,可以使用$锚定符。 2. 提供代码示例。 3. 解释代码。 4. 生成相关问题。 代码示例: perl #!/usr/bin/perl use strict; use warnings; my $text = "这是一个测试字符串;"; $text =~ s/;$//; # 移除结尾的分号 print "$text\n"; 如果需要替换为其他字符串: $text =~ s/;$/ new ending/; # 替换分号为 " new ending" 在正则表达式中,$匹配字符串结尾,所以/;$/匹配结尾的分号。 用户可能想处理多个结尾分号或特殊情况,但问题聚焦在结尾分号。 生成相关问题: 如系统指令所示,在回答后添加相关问题。 相关问题例子: 1. 如何替换字符串开头的分号? 2. 如何在Perl处理字符串中的特殊字符? 3. 有哪些Perl正则表达式的修饰符可用? 确保回答真实可靠:基于Perl文档和标准实践。 最终回答结构: - 引言:解释方法。 - 代码块。 - 解释。 - 相关问题。 </think> ### Perl 替换字符串结尾分号的方法 在 Perl 中,替换字符串结尾的分号可以通过正则表达式实现,核心是使用 `s///` 替换操作符结合 `$` 锚点(匹配字符串结尾)。`$` 锚点确保只替换结尾处的分号,而不是字符串中间的分号。以下我将逐步解释方法并提供完整代码示例,参考用户提供的引用[^1]和[^3]中的正则表达式技巧。 #### 方法解释 - **正则表达式关键**:使用模式 `/;$/` 匹配字符串结尾的分号: - `;` 匹配分号字符。 - `$` 表示字符串结尾(确保只针对结尾位置)。 - **替换语法**:`$str =~ s/;$//replacement/;` - `s///` 是 Perl 的替换操作符。 - 替换部分可以是空字符串(删除分号)或其他内容。 - 可选修饰符: - `g`:全局替换(如果字符串有多个结尾分号,但通常结尾只有一个分号)。 - `e`:如果替换部分需要计算表达式(本场景通常不需要)。 #### 代码示例 以下是一个完整的 Perl 脚本示例,演示如何移除或替换字符串结尾的分号: ```perl #!/usr/bin/perl use strict; use warnings; # 示例字符串 my $str = "Hello, world;"; # 结尾有分号 print "原始字符串: $str\n"; # 方法1: 删除结尾分号(替换为空字符串) $str =~ s/;$//; # 使用 $ 锚点匹配结尾分号 print "删除结尾分号后: $str\n"; # 输出: Hello, world # 方法2: 替换结尾分号为其他内容(例如替换为句点) my $str2 = "测试字符串;"; $str2 =~ s;$/;.;; # 使用分号作为分隔符以避免冲突,替换分号为句点 print "替换结尾分号后: $str2\n"; # 输出: 测试字符串. # 方法3: 全局替换(如果字符串有多个结尾分号,但这种情况罕见) my $str3 = "多分号例子;;"; $str3 =~ s/;+$//; # + 匹配一个或多个分号,$ 确保只处理结尾 print "移除多个结尾分号后: $str3\n"; # 输出: 多分号例子 ``` #### 说明 - **核心技巧**:正则表达式 `/;$/` 精确锁定结尾分号。如果字符串结尾可能有多余空格(如 `"text; "`),可使用 `/;\s*$/` 匹配分号后的空白(`\s*` 匹配零或多个空白字符)。 - **安全性**:在实际脚本中,始终添加 `use strict;` 和 `use warnings;` 以避免错误[^3]。 - **性能**:这种方法时间复杂度为 $O(n)$(n 是字符串长度),在 Perl 中高效,适用于大文本处理。 - **参考依据**:此方法基于 Perl正则表达式引擎,类似于引用[^1]中的基础替换操作和引用[^3]的 URL 编码示例(但本方法更简化)[^1][^3]。 如果字符串来自文件或输入流,可以结合循环处理: ```perl while (my $line = <>) { $line =~ s/;$//; # 移除每行结尾分号 print $line; } ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值