中文汉字截取函数（支持gb2312、big5、UTF-8）

最新推荐文章于 2022-01-21 15:04:19 发布

转载最新推荐文章于 2022-01-21 15:04:19 发布 · 996 阅读

文章标签：

#join #function #工作

PHP 专栏收录该内容

23 篇文章

订阅专栏

博主因项目需要，在工作中编写了一个中文汉字截取函数。使用该函数输出结果如“一二三四五...”，即便中英文混编，也不会出现只截取汉字半边字符的问题。

这是这几天我在工作中因为项目需要写的一个中文汉字截取函数：


<? 
#============================================================================ 
# 中文字符串截取函数 
# 参数说明： 
# $fStr：需要截最的原始字符串； 
# $fStart：从第几个汉字后开始载取，从头开始截取使用 0 
# $fLen：截取几个汉字 
# $fCode：原始字符串的编码方式，默认为 gb2312 或 big5，UTF-8 按 UTF-8 编码方式截取 
#---------------------------------------------------------------------------- 
Function msubstr ($fStr, $fStart, $fLen, $fCode = "") { 
    switch ($fCode) { 
        case "UTF-8" : 
            preg_match_all("/[/x01-/x7f]|[/xc2-/xdf][/x80-/xbf]|/xe0[/xa0-/xbf][/x80-/xbf]|[/xe1-/xef][/x80-/xbf][/x80-/xbf]|/xf0[/x90-/xbf][/x80-/xbf][/x80-/xbf]|[/xf1-/xf7][/x80-/xbf][/x80-/xbf][/x80-/xbf]/", $fStr, $ar);   
            if(func_num_args() >= 3) {   
                if (count($ar[0])>$fLen) { 
                    return join("",array_slice($ar[0],$fStart,$fLen))."..."; 
                } 
                return join("",array_slice($ar[0],$fStart,$fLen)); 
            } else {   
                return join("",array_slice($ar[0],$fStart)); 
            } 
            break; 
        default: 
            $fStart = $fStart*2; 
            $fLen   = $fLen*2; 
            $strlen = strlen($fStr); 
            for ( $i = 0; $i < $strlen; $i++ ) { 
                if ( $i >= $fStart && $i < ( $fStart+$fLen ) ) { 
                    if ( ord(substr($fStr, $i, 1)) > 129 ) $tmpstr .= substr($fStr, $i, 2); 
                    else $tmpstr .= substr($fStr, $i, 1); 
                } 
                if ( ord(substr($fStr, $i, 1)) > 129 ) $i++; 
            } 
            if ( strlen($tmpstr) < $strlen ) $tmpstr .= "..."; 
            Return $tmpstr; 
    } 
} 
?>

使用举例：


<? 
$a = "一二三四五六七八九十"; 
$b = iconv("gb2312","UTF-8",$a); 
echo "a = ".msubstr($a,0,5)."<br>"; 
echo "b = ".msubstr($b,0,5,"UTF-8")."<br>"; 
?>

输出结果均是“一二三四五...”，如果有中英文混编，也不会出现只截取汉字半边字符的问题。