中文分词

本文介绍了一种在PHP中处理UTF-8编码中文字符串的方法,通过自定义函数CNSubStr实现对中文字符串的正确截取,确保不会出现乱码,并提供了详细的实现代码及测试案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章原始出版、作者信息和本声明。否则将追究法律责任。http://blog.youkuaiyun.com/mayongzhan - 马永占,myz,mayongzhan

php的substr只对E文的东西.所以切的中文会出现乱码

我现在都是用uft8,一个字相当于三个字节

前几天写过一个统计字数的函数,可以按照中文相当于一个字,相当于两个字,相当于三个字来统计.

这次因为要在一定宽度的情况下显示一个字符串,所以一个中文按照一个字来计算是最好的.

比如:

马永占MyZ;;

这里的分号一个是中文标点,一个是英文的,中文的按照两个字来计算

<!-- 写的函数加测试代码 -->

function CNSubStr($str, $length = 5)

{

$partStr = ""; //这个是要返回的截好的

$i = 0; //记数,字符串本身的

$j = 0; //记数,要求的长度

$strlen = strlen($str);

while($i < $strlen && $j < $length) {

if(preg_match("/^[" . chr(0xa1) . "-" . chr(0xff) . "]+$/", $str[$i])) {

$partStr .= $str[$i] . $str[$i+1] . $str[$i+2];

$i += 3;

$j += 1;

}

else {

$partStr .= $str[$i];

$i += 1;

$j += 1;

}

}

return $partStr;

}

运行结果:

$i = 0 -
$i = 1 - M
$i = 2 - My
$i = 3 - MyZ
$i = 4 - MyZ;
$i = 5 - MyZ;马
$i = 6 - MyZ;马永
$i = 7 - MyZ;马永占
$i = 8 - MyZ;马永占;
$i = 9 - MyZ;马永占;
$i = 10 - MyZ;马永占;
$i = 11 - MyZ;马永占;

转载请注明

马永占(MyZ)

http://blog.youkuaiyun.com/mayongzhan/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值