使用go进行json序列化和反序化时,该过程可能不可逆

在使用Golang进行JSON序列化时,需注意其可能改变二进制数据,且不抛出错误。文章通过实例说明,序列化string类型时,若包含非UTF-8编码的字节,Go会自动转换并用特定字符替换,导致数据长度和内容变化。这与Python不同,Python在无法序列化时会抛出错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用golang进行json序列化时需要注意,该序列化过程可能不可逆,而且没有错误抛出。

今天用go导出一批数据时,我按照以前python的习惯,将一条条数据json序列化后,输出到文件中去。

bys, err := json.Marshal(obj)
fmt.Fprintln(file, string(bys)))

然后在测试导出文件的可用性发现基本一个string类型的数据跟原来的不太一样。这个string其实是二进制数组([]byte),明显的表现就是经过序列化后再反序列的string串长度不一样。经观察,反序列化出来的串在有以下重复的字节。

0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd

翻读json.Marshal源码时,发现go在序列化过程中,会对string按照utf8编码转换成unicode编码,当遇到无法不符合utf8编码的字节时,也不会抛出错误,而是用utf8.ErrorRune进行替换。

// String values encode as JSON strings coerced to valid UTF-8,
// replacing invalid bytes with the Unicode replacement rune.

当我尝试用以下代码将其处理时

var bys []byte
b := []byte(s)
for len(b) > 0 {
	r, size := utf8.DecodeRune(b)
	if r != utf8.RuneError {
		bys = append(bys, []byte(string(r))...)
	} else {
		bys = append(bys, byte(r))
	}
	b = b[size:]
}
return bys

这样是可以得到和原来的string相同长度的byte数组,但是数据已经改变了。

这一点太坑了,不像python,在不能进行序列化时,起码会给你抛个错误。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值