PHP 过滤生僻字和特殊字符

本文介绍了一个PHP脚本,该脚本用于处理包含生僻字和特殊字符的字符串。通过使用bin2hex和str_split函数将输入转换为十六进制形式,并通过自定义的filterUtf8函数过滤掉非UTF-8编码或超过三个字节的字符。最终通过htmlspecialchars进行转义并显示结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

<?php
header('Content-Type:text/html;charset=utf-8');
$content = "abc阅谁问君诵,水落清香浮。下面是生僻字和特殊字符:<>'\"'[生僻字iteye无法识别]";
echo htmlspecialchars(filterUtf8($content), ENT_QUOTES);
//过滤生僻字 所谓的生僻字是指超过三个字节的字符,或者非utf8字符
function filterUtf8($str) {
	/*utf8 编码表:
	 * Unicode符号范围           | UTF-8编码方式
	 * u0000 0000 - u0000 007F   | 0xxxxxxx
	 * u0000 0080 - u0000 07FF   | 110xxxxx 10xxxxxx
	 * u0000 0800 - u0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx
	 *
	 */
	$re = '';
	$str = str_split(bin2hex($str), 2);
	$mo = 1<<7;
	$mo2 = $mo | (1<<6);
	$mo3 = $mo2 | (1<<5);
	//三个字节
	$mo4 = $mo3 | (1<<4);
	//四个字节
	$mo5 = $mo4 | (1<<3);
	//五个字节
	$mo6 = $mo5 | (1<<2);
	//六个字节
	for ($i = 0; $i < count($str); $i++) {
		if ((hexdec($str[$i]) & ($mo)) == 0) {
			$re .= chr(hexdec($str[$i]));
			continue;
		}
		//4字节 及其以上舍去
		if ((hexdec($str[$i]) & ($mo6)) == $mo6) {
			$i = $i + 5;
			continue;
		}
		if ((hexdec($str[$i]) & ($mo5)) == $mo5) {
			$i = $i + 4;
			continue;
		}
		if ((hexdec($str[$i]) & ($mo4)) == $mo4) {
			$i = $i + 3;
			continue;
		}
		if ((hexdec($str[$i]) & ($mo3)) == $mo3) {
			$i = $i + 2;
			if (((hexdec($str[$i]) & ($mo)) == $mo) && ((hexdec($str[$i - 1]) & ($mo)) == $mo)) {
				$r = chr(hexdec($str[$i - 2])) . chr(hexdec($str[$i - 1])) . chr(hexdec($str[$i]));
				$re .= $r;
			}
			continue;
		}
		if ((hexdec($str[$i]) & ($mo2)) == $mo2) {
			$i = $i + 1;
			if ((hexdec($str[$i]) & ($mo)) == $mo) {
				$re .= chr(hexdec($str[$i - 1])) . chr(hexdec($str[$i]));
			}
			continue;
		}
	}
	return $re;
}
?>

 

效果图:

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值