string substr ( string $string , int $start [, int $length ] )
返回string中从start位置开始长度为length的字符串
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
查了一下,解决方案归结起来可分两类:
1、改用mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、自建函数增强substr功能
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
|
function
getstr( $string ,
$length , $encoding
= 'utf-8' ) { $string
= trim( $string ); if ( $length
&& strlen ( $string ) >
$length ) { //截断字符 $wordscut
= '' ; if ( strtolower ( $encoding )
== 'utf-8' ) { //utf8编码 $n
= 0; $tn
= 0; $noc
= 0; while
( $n
< strlen ( $string )) { $t
= ord( $string [ $n ]); if ( $t
== 9 || $t
== 10 || (32 <= $t
&& $t <= 126)) { $tn
= 1; $n ++; $noc ++; }
elseif (194 <=
$t && $t
<= 223) { $tn
= 2; $n
+= 2; $noc
+= 2; }
elseif (224 <=
$t && $t
< 239) { $tn
= 3; $n
+= 3; $noc
+= 2; }
elseif (240 <=
$t && $t
<= 247) { $tn
= 4; $n
+= 4; $noc
+= 2; }
elseif (248 <=
$t && $t
<= 251) { $tn
= 5; $n
+= 5; $noc
+= 2; }
elseif ( $t
== 252 || $t
== 253) { $tn
= 6; $n
+= 6; $noc
+= 2; }
else { $n ++; } if
( $noc
>= $length ) { break ; } } if
( $noc
> $length ) { $n
-= $tn ; } $wordscut
= substr ( $string , 0,
$n ); }
else { for ( $i
= 0; $i
< $length - 1;
$i ++) { if (ord( $string [ $i ])
> 127) { $wordscut
.= $string [ $i ]. $string [ $i
+ 1]; $i ++; }
else { $wordscut
.= $string [ $i ]; } } } $string
= $wordscut ; } return
trim( $string ); } // 示例 echo
getstr( "0一二三四五六七" ,1). '<br />' ;
// 0 echo
getstr( "0一二三四五六七" ,2). '<br />' ;
// 0 echo
getstr( "0一二三四五六七" ,3). '<br />' ;
// 0一 echo
getstr( "0一二三四五六七" ,4). '<br />' ;
// 0一 echo
getstr( "0一二三四五六七" ,5). '<br />' ;
// 0一二 echo
getstr( "0一a二b三四五六七" ,1). '<br />' ;
// 0 echo
getstr( "0一a二b三四五六七" ,2). '<br />' ;
// 0 echo
getstr( "0一a二b三四五六七" ,3). '<br />' ;
// 0一 echo
getstr( "0一a二b三四五六七" ,4). '<br />' ;
// 0一a echo
getstr( "0一a二b三四五六七" ,5). '<br />' ;
// 0一a |
此函数由UCHome 1.5中的getstr()函数修改而来。