使用golang进行json序列化时需要注意,该序列化过程可能不可逆,而且没有错误抛出。
今天用go导出一批数据时,我按照以前python的习惯,将一条条数据json序列化后,输出到文件中去。
bys, err := json.Marshal(obj)
fmt.Fprintln(file, string(bys)))
然后在测试导出文件的可用性发现基本一个string类型的数据跟原来的不太一样。这个string其实是二进制数组([]byte),明显的表现就是经过序列化后再反序列的string串长度不一样。经观察,反序列化出来的串在有以下重复的字节。
0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd
翻读json.Marshal源码时,发现go在序列化过程中,会对string按照utf8编码转换成unicode编码,当遇到无法不符合utf8编码的字节时,也不会抛出错误,而是用utf8.ErrorRune进行替换。
// String values encode as JSON strings coerced to valid UTF-8,
// replacing invalid bytes with the Unicode replacement rune.
当我尝试用以下代码将其处理时
var bys []byte
b := []byte(s)
for len(b) > 0 {
r, size := utf8.DecodeRune(b)
if r != utf8.RuneError {
bys = append(bys, []byte(string(r))...)
} else {
bys = append(bys, byte(r))
}
b = b[size:]
}
return bys
这样是可以得到和原来的string相同长度的byte数组,但是数据已经改变了。
这一点太坑了,不像python,在不能进行序列化时,起码会给你抛个错误。