perl中汉语匹配的问题

博客围绕如何用句号分割中文句子展开,给出示例,提出先去掉末尾标点、判断有无句号再切分的思路,但存在bug。还给出两种解决办法,一是用支持unicode的编辑器将源文件转成utf8编码并加use utf8;二是使用Encode模块。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如何用句号分割中文句子
发信站: BBS 水木清华站 (Mon Mar  7 19:40:39 2005), 转信


 example:
 还有一件事。5点半你去会见斯图尔特先生。
 提取出
 subsentence1: 还有一件事。
 subsentence2:5点半你去会见斯图尔特先生。
 句中可能有多个句号那么就切分为多个。
 
 我的想法是:
 1.去掉末尾标点
 $t_c_str =~s/[))/;,.?!/"/',。?!“”‘’…/n]+$//;   #去掉末尾标点
 2.在判断有无句号
 if($t_c_str =~ /。/ )
 3.切分
  @subsen_c = split(/。/,$t_c_str);
  
  有bug 大家帮忙支个招。

ans

你用支持unicode的编辑器把源文件全部转成utf8编码,然后在最开始加use utf8,中文字符就和英文字符一样用了。
不想这样转就得用Encode模块:

use Encode;
$a=decode("gbk","还有一件事。5点半你去会见斯图尔特先生。");
$dot=decode("gbk","。");
@f=split(/(?<=$dot)/b/,$a);
foreach(@f) {
        print encode("gbk",$_),"/n";
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值