php utf-8的 BOM 问题解决

本文探讨了BOM(字节序标记)如何影响PHP程序运行,并详细解释了BOM的概念及其在不同编码方式下的表现形式。同时提供了有效的解决方案,帮助开发者避免因BOM导致的程序错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近做程序的是否发现自己的php程序最上端总有莫名的换行符

后来发现原来是bom在作怪,以下是我在解决这个问题后的一个总结

Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明:

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。

Windows就是使用BOM来标记文本文件的编码方式的。

另外unicode网站的FAQ-BOM详细介绍了BOM。官方的自然权威,不过是英文的,看起来比较费劲。

UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM。我在研究Firefox的时候就知道,在Firefox早期的版本里,扩展是不能有BOM的,不过Firefox 1.5以后的版本已经开始支持BOM了。现在又发现,PHP也不支持BOM。

PHP在设计时就没有考虑BOM的问题,也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在<?或者<?php后面的代码才会作为PHP代码执行,所以这三个字符将会直接输出。如果插件的文件有这个问题,将会导致在后台页面里激活或者不激活插件后显示白屏,如果是模版文件有这个问题,将会导致这三个字符直接输出,造成页面上方有一个小空行。国外的英文插件和模版一般都是用的ASCII码的编码方式,不会有BOM,只有国内的插件和模版会由于作者的不知情造成问题。还有,大家修改模版的时候,由于输出页面使用UTF-8编码,那么修改模版的时候如果有加入中文字符的话,必须把文件转成UTF-8编码才能正常显示,这个时候如果所使用的编辑器自动加上了BOM的话,将会造成在页面上输出这三个字符,显示效果就要看浏览器了,一般是一个空行或是一个乱码。

在Bo-Blog的wiki看到,同样使用PHP的Bo-Blog也一样受到BOM的困扰。其中有提到另一个麻烦:“受COOKIE送出机制的限制,在这些文件开头已经有BOM的文件中,COOKIE无法送出(因为在COOKIE送出前PHP已经送出了文件头),所以登入和登出功能失效。一切依赖COOKIE、SESSION实现的功能全部无效。”这个应该就是Wordpress后台出现空白页面的原因了,因为任何一个被执行的文件包含了BOM,这三个字符都将被送出,导致依赖cookies和session的功能失效。

解决的办法嘛,如果只包含英文字符(或者说ASCII编码内的字符),就把文件存成ASCII码方式吧。用UE等编辑器的话,点文件->转换->UTF-8转ASCII,或者在另存为里选择ASCII编码。如果是DOS格式的行尾符,可以用记事本打开,点另存为,选ASCII编码。如果包含中文字符的话,可以用UE的另存为功能,选择“UTF-8 无 BOM”即可。请参考下面的图片: UTF-8 BOM

 

<think>嗯,用户问的是UTF-8UTF-8 BOM的区别。我需要先回忆一下这两种编码方式的基本概念。首先,UTF-8应该是一种通用的字符编码,支持各种语言,而且它是可变长度的,对吧?而BOM,全称是字节顺序标记,通常用来标识文本的字节序,不过我记得在UTF-8中,字节序其实并不影响,因为UTF-8的字节顺序是固定的。 那UTF-8 BOM到底是怎么回事呢?好像有些系统或程序在保存UTF-8文件时会在文件开头加上BOM,也就是三个字节的EF BB BF。虽然BOMUTF-16或UTF-32中用于确定字节顺序,但在UTF-8里可能更多是作为标识文件编码的标志。但这样做可能会引起问题,比如有些软件无法正确识别BOM,导致开头出现乱码或者解析错误。 接下来要整理它们的区别。首先是BOM的存在与否,UTF-8不带BOM,而UTF-8 BOM则在文件开头有三个字节的标记。然后是兼容性问题,有些旧系统或工具可能不支持BOM,比如PHP在处理文件时如果开头有BOM可能会报错。另外,跨平台处理时,比如Linux和Windows之间的文件交换,BOM可能导致问题。还有应用场景,比如Web开发中通常不建议使用BOM,而某些Windows程序可能需要BOM来正确识别编码。 需要注意的点是,虽然BOM可以帮助识别编码,但现代很多环境和工具已经不需要它了。反而可能因为BOM的存在引发问题,比如脚本文件执行时报错,或者JSON解析失败。要提醒用户根据具体使用场景选择是否添加BOM,比如在Windows的文本文件中有时需要,而在Web开发中应避免。 可能需要举例说明,比如用记事本保存UTF-8时会自动添加BOM,而其他编辑器如Notepad++可以选择是否添加。还要注意不同编程语言对BOM的处理方式,比如Python在读取带有BOM的文件时需要指定编码方式,否则可能出错。 总结的时候要分点明确,用对比的方式列出区别,再给出使用建议,这样用户更容易理解。另外,要使用用户能理解的语言,避免技术术语过多,必要时进行解释。检查是否有遗漏点,比如文件大小的影响,虽然三个字节影响不大,但在某些情况下可能需要注意。最后确保回答结构清晰,步骤合理,符合用户的需求。</think>UTF-8UTF-8 BOM 的区别主要体现在文件编码的标记方式及兼容性上,以下是具体对比: --- ### **1. BOM 标记的存在** - **UTF-8(无 BOM)** 标准 UTF-8 编码不包含任何字节顺序标记(Byte Order Mark, BOM)。文件直接以字符的 UTF-8 字节流开头。 *例如*:`你好` 的 UTF-8 编码是 `E4 BD A0 E5 A5 BD`(无开头标记)。 - **UTF-8 BOM** 在文件开头添加 3 字节的 BOM 标记 `EF BB BF`,用于标识文件为 UTF-8 编码。 *例如*:`你好` 的 UTF-8 BOM 编码是 `EF BB BF E4 BD A0 E5 A5 BD`。 --- ### **2. 兼容性问题** - **UTF-8(无 BOM)** ✅ 广泛兼容,是 Web 开发、Linux/Unix 系统的默认选择。 ✅ 无额外标记,避免解析冲突(如 PHP 脚本开头的 BOM 可能导致 HTTP 头错误)。 - **UTF-8 BOM** ⚠️ 部分旧系统或工具无法识别 BOM,可能导致以下问题- 文件开头显示乱码(如 ``)。 - 脚本执行错误(如 Python 报错 `SyntaxError: encoding problem`)。 - JSON 解析失败(BOM 违反 RFC 标准)。 --- ### **3. 典型应用场景** | **场景** | **推荐编码** | **原因** | |------------------------|------------------|-----------------------------------| | Web 开发(HTML/CSS/JS)| UTF-8(无 BOM) | 避免浏览器解析冲突 | | Windows 文本文件 | UTF-8 BOM | 帮助记事本等工具正确识别编码 | | 跨平台开发(如 Python)| UTF-8(无 BOM) | 避免解释器报错 | --- ### **4. 如何选择?** - **使用 UTF-8 BOM 的情况** - 需兼容旧版 Windows 软件(如记事本)。 - 文件需要明确标识编码(但现代编辑器已支持自动检测)。 - **使用 UTF-8(无 BOM)的情况** - 开发 Web 应用或 API。 - 编写脚本或配置文件。 - 确保跨平台一致性(Linux/macOS/Windows)。 --- ### **示例对比** ```plaintext # UTF-8(无 BOM) 48 65 6C 6C 6F → "Hello" # UTF-8 BOM EF BB BF 48 65 6C 6C 6F → "Hello"(带 BOM 标记) ``` --- ### **注意事项** - 修改文件编码时,需通过编辑器明确选择是否添加 BOM(如 Notepad++ 的 `Encoding > UTF-8` vs `UTF-8-BOM`)。 - 编程中建议通过代码声明编码(如 Python 的 `# -*- coding: utf-8 -*-`),而非依赖 BOM
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值