中文字符串截取函数 substr_for_gb2312 and substr_for_utf8

本文介绍了两种针对不同编码(GB2312和UTF-8)的字符串截取方法。对于GB2312编码,提供了一种能够确保中文字符完整性的截取函数。对于UTF-8编码,则提供了既能处理普通字符串又能处理带有特殊字符的字符串截取函数,确保了截取结果的准确性。

/*

*gb2312中文字符串截取

 */

function substr_for_gb2312($str,$start,$len=null)
 {
   $totlelength = strlen($str);

   //特例情况
   if ($len == null) $len = $totlelength;
   if ($len ==0) return "";
   if ($len >= $totlelength && $start == 0 ) return $str;
   if ($start > $totlelength) return "";

   //分析$start
   if ($start < 0 )  //$start<0时,转化为$start>0时的定位.
   {
    if ( abs($start) >= $totlelength ) $start = 0;
    else $start = $totlelength - abs($start);
   }
  
   //确定起始位置,当起始位拆分某汉字时,返回值包含此汉字.
   if ($start > 0)
   {
    $i = $start-1;
    $flag = -1;
    while ($i >= 0)
    {
   if ( ord(substr($str,$i,1)) > 160)
   {
    $flag = -1*$flag;
   }
   else break;
   $i--;
    }
    if($flag==1)
    {
   $start = $start - 1;
   $len++;        //保证不位移.
    }
  }
  $str = substr($str,$start);//截除字符串$str的$start位前的字符
  $totlelength = strlen($str);

  //确定结束位置,当结束位拆分某汉字时,返回值不包含此汉字.
  if ($len<0) $len = $totlelength - abs($len);
  if ($len <= 0) return "";
  $i=min($len,$totlelength);
  $i--;
  $flag = -1;
  while ($i >= 0)
  {
    if (ord(substr($str,$i,1))>160)
    {
     $flag=-1*$flag;
    }
    else break;
    $i--;
  }
  if($flag == 1)
    $len=$len-1;
  $subit=substr($str,0,$len);
  return $subit;
 }

/******************************************************************

* PHP截取UTF-8字符串,解决半字符问题。
* 英文、数字(半角)为1字节(8位),中文(全角)为3字节
* @return 取出的字符串, 当$len小于等于0时, 会返回整个字符串
* @param $str 源字符串
* $len 左边的子串的长度
****************************************************************/
function substr_for_utf($str,$len)
{
for($i=0;$i<$len;$i++)
{
$temp_str=substr($str,0,1);
if(ord($temp_str) > 127)
{
$i++;
if($i<$len)
{
$new_str[]=substr($str,0,3);
$str=substr($str,3);
}
}
else
{
$new_str[]=substr($str,0,1);
$str=substr($str,1);
}
}
return join($new_str);
}
?>

/*带start位置的utf8截取函数*/

function utf8_substr($string, $start, $length) {  
    preg_match_all ('/[/x00-/x7F]|[/xC2-/xDF][/x80-/xBF]|[/xE0-/xEF][/x80-/xBF][/x80-/xBF]|[/xF0-/xF4][/x80-/xBF][/x80-/xBF][/x80-/x
BF]/', $string, $rs);  
    $out = ''; 
    $size = count ($rs[0]); 
    $end = $start + $length; 
    if ($end > $size ) {  
        $end = $size; 
    }  
    for ($i = $start; $i < $end; $i++) {  
        $out .= $rs[0][$i]; 
    }  
    return $out; 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值