去掉Adodb.Stream输出UTF-8的BOM

本文介绍如何利用Adodb.Stream在写入UTF-8文本时避免产生BOM头。通过调整写入字符的顺序和转换流的类型,可以避免Adodb.Stream自动添加BOM。详细的方法包括先写入第一个字符,然后切换到二进制模式跳过BOM,再转换回文本模式写入剩余字符。最后,保存文件前需将流转为二进制模式以防止Adodb.Stream在输出时添加BOM。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过Adodb.Stream,可以很方便的读写二进制及及文本流,可读写文件,并可指定文本流的字符集编码。
可是Adodb.Stream输出UTF-8编码的文本流时,会在流的最前端加上BOM。
BOM是什么:Byte Order Mark, UTF-8编码特有的标记,在文件流的开始中占用3个字节“EF BB BF”。
BOM有什么用处:这里不做讨论,这里要讨论的是如何在Adodb.Stream(以下简化为stream或“流”)中去掉这3个字节的BOM,因为很多时候我们都不希望输出的文件开头包含这3个字节。

 

最直接简单的做法可以这样:
我们已经知道BOM占用3个字节,那么我们可以在stream中写入UTF-8字符串之后,将stream转换为二进制类型,然后跳过头3个字节,并将剩下的字节用CopyTo()方法拷贝到一个新的stream中去。
不过这样好像有潜在的很严重的性能问题,如果这个文本流比较大,会不会因为处理这个流而耗费双倍的资源?

 

那我们将上面的方案优化一下。
经过测试发现,stream在“UTF-8”编码的Text方式下首次调用WriteText()方法时,会自动在stream的最开始加入3个字节。
更严格的说,在以下状态下(JS code):
stream.Position = 0; // 流的位置在最开始时
stream.Type = 2; // adTypeText
stream.Charset = 'UTF-8';
调用stream.WriteText()方法时,stream会自动先在流的最开始插入3个字节的BOM。

 

而stream.Position在任何非0值的情况下,调用WriteText()方法都不会再插入BOM了,可以利用这一点来避免自动插入BOM。
假如我们需要朝stream中写入10个UTF-8字符,我们先按照通常方式在一个刚创建的stream中只写入第一个UTF-8字符
之后将stream转换为二进制类型(adTypeBinary),跳过stream开始的3个BOM字节,并读出剩余的字节(这些字节应该只包含刚刚一个字符的数据,不含其它杂质)。
再回到流的开始,将刚刚读出的字节重新写入流,写完后立即调用SetEOS()方法将当前位置设为流末尾。
然后将stream重新转换回文本类型(adTypeText),并将流当前位置移到流末尾。
此时继续写入剩余的9个UTF-8字符,stream会将其编码后的字节数据直接添加到尾部,而不会再插入BOM了。
此后若需要继续往stream中写入文本,直接调用WriteText()方法即可。

 

通过测试可以发现,如上方式写入的UTF-8字符串通过ReadText()方法也能正常读出,但是stream.Size却比传统方式直接写入UTF-8的stream小3,很明显就是少了那3个“多余”的BOM字节。

 

<think>我们正在处理yyjson库读取BOMUTF-8文件的问题。根据引用[3]和[4],我们知道BOM(Byte Order Mark)在文件开头,可能会干扰解析器,导致第一行出现乱码(如问号)。yyjson是一个高性能的JSON库,但默认可能处理BOM。 参考引用[3]的解决方案:使用Python时,可以用`utf-8-sig`编码打开文件,它会自动去除BOM。同样,在Java中,也有方法去除BOM(如使用UnicodeReader)。那么,在yyjson中,我们可能需要手动处理BOM。 步骤: 1. 读取文件的前几个字节(最多3个),检查是否是BOM(即0xEF,0xBB,0xBF)。 2. 如果是BOM,则跳过这三个字节,将剩余内容作为JSON字符串传递给yyjson解析。 3. 如果没有BOM,则直接解析。 注意:yyjson提供了从文件、内存和字符串读取JSON的接口。我们可以使用内存读取方式,先读取整个文件内容,然后检查并跳过BOM。 例如,使用C语言: ```c #include <yyjson.h> #include <stdio.h> #include <stdlib.h> yyjson_doc *read_json_with_bom(const char *filename) { FILE *fp = fopen(filename, "rb"); if (!fp) return NULL; // 获取文件大小 fseek(fp, 0, SEEK_END); long size = ftell(fp); fseek(fp, 0, SEEK_SET); // 分配内存 char *data = (char *)malloc(size); if (!data) { fclose(fp); return NULL; } // 读取文件内容 fread(data, 1, size, fp); fclose(fp); // 检查BOM if (size >= 3 && (unsigned char)data[0] == 0xEF && (unsigned char)data[1] == 0xBB && (unsigned char)data[2] == 0xBF) { // 跳过BOM,解析剩余部分 return yyjson_read(data + 3, size - 3, 0); } else { // 直接解析 return yyjson_read(data, size, 0); } } ``` 注意:上述代码没有错误处理,实际使用中应添加。另外,解析完成后需要释放分配的内存和文档。 另一种方法:使用yyjson提供的文件读取接口,但需要先跳过BOM。然而,yyjson的文件读取函数(如`yyjson_read_file`)可能会自动处理BOM,因此我们需要以二进制模式打开文件,读取并跳过BOM,然后将文件指针传递给yyjson。但是,yyjson的文件读取函数要求文件路径,而是文件指针。所以,我们可以使用内存映射或者上述方法。 如果文件很大,使用内存映射可能更高效,但上述方法已经足够通用。 另外,引用[5]提到在ASP中用ADODB.Stream保存UTF-8文件时去掉BOM,这提示我们可以在写入文件时避免使用BOM,这样读取时就需要处理了。但如果是第三方文件,我们无法控制,则必须处理。 总结:在读取文件时,先检查并跳过BOM,然后将剩余内容作为JSON解析。 相关问题: 1. 如何检测UTF-8文件是否包含BOM? 2. 除了BOM,还有哪些常见的编码问题会影响JSON解析? 3. yyjson库在解析JSON时还有哪些注意事项?</think>### yyjson 读取 UTF-8 with BOM 文件的正确解析方法 yyjson 默认自动处理 UTF-8 BOM 头,需要手动处理。以下是解决方案: #### 方法一:手动跳过 BOM(推荐) ```c #include <yyjson.h> #include <stdio.h> yyjson_doc* read_json_with_bom(const char *path) { FILE *fp = fopen(path, "rb"); if (!fp) return NULL; // 检测并跳过 BOM (3字节: 0xEF,0xBB,0xBF) unsigned char bom[3]; if (fread(bom, 1, 3, fp) == 3 && bom[0] == 0xEF && bom[1] == 0xBB && bom[2] == 0xBF) { // BOM 已跳过 } else { // 无 BOM,重置文件指针 fseek(fp, 0, SEEK_SET); } // 读取剩余内容 fseek(fp, 0, SEEK_END); long size = ftell(fp); fseek(fp, bom[0] == 0xEF ? 3 : 0, SEEK_SET); char *data = malloc(size); size_t len = fread(data, 1, size, fp); fclose(fp); // 用 yyjson 解析 yyjson_doc *doc = yyjson_read_opts(data, len, YYJSON_READ_ALLOW_COMMENTS | YYJSON_READ_ALLOW_TRAILING_COMMAS, NULL, NULL); free(data); return doc; } ``` #### 方法二:预处理文件(适用于可控文件) 1. 将文件转换为无 BOMUTF-8 格式: ```python # Python 转换示例 with open("input.json", "r", encoding="utf-8-sig") as f: # 自动去除BOM content = f.read() with open("output.json", "w", encoding="utf-8") as f: # 无BOM写入 f.write(content) ``` 然后使用 yyjson 直接读取 `output.json`[^3] #### 关键说明: 1. **BOM 结构**:UTF-8 BOM 是固定的 3 字节序列 `0xEF 0xBB 0xBF` 2. **检测逻辑**:读取文件头 3 字节判断是否为 BOM 3. **内存处理**:跳过 BOM 后需调整文件指针和缓冲区偏移 4. **性能考虑**:yyjson 支持原地解析(`YYJSON_READ_INSITU`),但需确保 BOM 已移除[^3][^4] > **注意**:Web 场景下 UTF-8 BOM 可能导致问题,建议在数据源端消除 BOM[^1][^5]。QT/C++ 等环境也需特别注意 BOM 文件的编译问题[^2]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值