php关于UTF-8的BOM头问题

探讨了在UTF-8文件中常见的BOM字符问题,包括其产生原因、对JSON键值、字符串比较及数据库唯一索引的影响,以及如何通过PHP函数removeBom处理此问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

r如何产生的:一般情况下,在windows环境,用记事本保存就会产生

php获取文件内容,按行切割成数组,在postman中打印如下:

第一个元素长度看起来是5,实际打印显示为8,下图暴漏出来好像是有空格

至少这几种情况会引发一些问题:

1、这种奇怪的字符串作为json的键

2、字符串用 === 比较

3、数据库唯一索引,这种奇怪的字符串 与 正常字符串也会被同时写入数据库

原因:

何谓BOM?BOM的全称叫做"Byte Order Mard".在utf-8文件中常用BOM来表明这个文件是UTF-8文件,而BOM的本意实在utf16中用来表示高低字节序列的。在字节流之前有BOM表示采用低字节序列(低字节在前面),而utf8不用考虑字节序列,所以其实有无BOM都可以。这就解释了为什么会多出三个字符!

处理方式:检测是否有bom,然后截取掉,把可疑字符串用以下函数处理:

function removeBom(&$contents) {
    $charset[1] = substr($contents, 0, 1); 
    $charset[2] = substr($contents, 1, 1); 
    $charset[3] = substr($contents, 2, 1);
    if (ord($charset[1]) == 239 && ord($charset[2]) == 187 && ord($charset[3]) == 191) { 
        $contents = substr($contents, 3);
    }
}

果然,人生处处都是坑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值