33、Go语言中自定义数据文件的处理-优快云博客

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/155299844

Go语言中自定义数据文件的处理

在Go语言开发中，处理数据文件是一项常见的任务。本文将详细介绍如何使用Go语言处理自定义数据文件，包括Go二进制（gob）文件和自定义二进制文件的读写操作。

1. 处理Go二进制（gob）文件

Go二进制（gob）格式是一种自描述的二进制值序列。在内部，gob格式由零个或多个块组成，每个块包含字节计数、零个或多个typeId - typeSpecification对以及一个typeId - value对。gob格式在处理数据文件或通过网络连接传输数据时非常方便，前提是不需要人类可读。

1.1 写入Go二进制文件

以下是一个将 []*Invoice 类型的数据集以gob格式写入打开文件（或任何实现 io.Writer 接口的对象）的方法：

type GobMarshaler struct{}
func (GobMarshaler) MarshalInvoices(writer io.Writer,
    invoices []*Invoice) error {
    encoder := gob.NewEncoder(writer)
    if err := encoder.Encode(magicNumber); err != nil {
        return err
    }
    if err := encoder.Encode(fileVersion); err != nil {
        return err
    }
    return encoder.Encode(invoices)
}

具体操作步骤如下：
1. 创建一个gob编码器，该编码器包装了 io.Writer 接口，用于写入数据。
2. 使用 gob.Encoder.Encode() 方法写入数据，该方法可以完美处理包含嵌套切片的发票数据。
3. 写入魔术数字和文件版本，这有助于后续更改文件格式。

如果结构体中包含无法使用gob编码的字段，则需要让结构体实现 gob.GobEncoder 和 gob.GobDecoder 接口。

1.2 读取Go二进制文件

读取gob数据同样简单，只要将其读回到与写入时相同类型的顶级变量中即可。以下是读取gob数据的方法：

func (GobMarshaler) UnmarshalInvoices(reader io.Reader) ([]*Invoice,
error) {
    decoder := gob.NewDecoder(reader)
    var magic int
    if err := decoder.Decode(&magic); err != nil {
        return nil, err
    }
    if magic != magicNumber {
        return nil, errors.New("cannot read non-invoices gob file")
    }
    var version int
    if err := decoder.Decode(&version); err != nil {
        return nil, err
    }
    if version > fileVersion {
        return nil, fmt.Errorf("version %d is too new to read", version)
    }
    var invoices []*Invoice
    err := decoder.Decode(&invoices)
    return invoices, err
}

具体操作步骤如下：
1. 创建一个gob解码器，用于从 io.Reader 中读取数据。
2. 读取魔术数字和文件版本，检查文件是否为有效的发票文件以及版本是否可处理。
3. 读取发票数据， gob.Decoder.Decode() 方法会自动调整切片大小并填充数据。

2. 处理自定义二进制文件

虽然Go的 encoding/gob 包使用方便，但在某些情况下，我们可能需要创建自己的自定义二进制格式。自定义二进制格式可以实现最紧凑的数据表示，读写速度也可能更快。

2.1 .inv自定义二进制格式

.inv自定义二进制格式用于表示单个发票，具体结构如下：
| 字段 | 类型 |
| ----------- | ------- |
| Id | int32 |
| CustomerId | int32 |
| Raised | int32 |
| Due | int32 |
| Paid | int8 |
| Note | []byte |
| item count | int32 |
| items | … |

其中，整数使用特定大小和符号的整数表示，布尔值用 int8 表示（1为真，0为假），字符串用字节计数（ int32 ）后跟UTF - 8编码的字节表示，日期用 int32 表示（如20060102）。

2.2 写入自定义二进制文件

以下是将发票数据以自定义二进制格式写入文件的方法：

type InvMarshaler struct{}
var byteOrder = binary.LittleEndian
func (InvMarshaler) MarshalInvoices(writer io.Writer,
    invoices []*Invoice) error {
    var write invWriterFunc = func(x interface{}) error {
        return binary.Write(writer, byteOrder, x)
    }
    if err := write(uint32(magicNumber)); err != nil {
        return err
    }
    if err := write(uint16(fileVersion)); err != nil {
        return err
    }
    if err := write(int32(len(invoices))); err != nil {
        return err
    }
    for _, invoice := range invoices {
        if err := write.writeInvoice(invoice); err != nil {
            return err
        }
    }
    return nil
}

具体操作步骤如下：
1. 创建一个方便的 write() 函数，该函数封装了 io.Writer 和字节顺序。
2. 写入魔术数字、文件版本和发票数量。
3. 遍历每张发票，调用 write.writeInvoice() 方法写入发票数据。

writeInvoice() 方法的实现如下：

func (write invWriterFunc) writeInvoice(invoice *Invoice) error {
    for _, i := range []int{invoice.Id, invoice.CustomerId} {
        if err := write(int32(i)); err != nil {
            return err
        }
    }
    for _, date := range []time.Time{invoice.Raised, invoice.Due} {
        if err := write.writeDate(date); err != nil {
            return err
        }
    }
    if err := write.writeBool(invoice.Paid); err != nil {
        return err
    }
    if err := write.writeString(invoice.Note); err != nil {
        return err
    }
    if err := write(int32(len(invoice.Items))); err != nil {
        return err
    }
    for _, item := range invoice.Items {
        if err := write.writeItem(item); err != nil {
            return err
        }
    }
    return nil
}

该方法依次写入发票的ID、客户ID、日期、支付状态、备注、项目数量和项目信息。

写入日期、布尔值和字符串的辅助方法如下：

const invDateFormat = "20060102"
func (write invWriterFunc) writeDate(date time.Time) error {
    i, err := strconv.Atoi(date.Format(invDateFormat))
    if err != nil {
        return err
    }
    return write(int32(i))
}

func (write invWriterFunc) writeBool(b bool) error {
    var v int8
    if b {
        v = 1
    }
    return write(v)
}

func (write invWriterFunc) writeString(s string) error {
    if err := write(int32(len(s))); err != nil {
        return err
    }
    return write([]byte(s))
}

写入项目信息的方法如下：

func (write invWriterFunc) writeItem(item *Item) error {
    if err := write.writeString(item.Id); err != nil {
        return err
    }
    if err := write(item.Price); err != nil {
        return err
    }
    if err := write(int16(item.Quantity)); err != nil {
        return err
    }
    return write.writeString(item.Note)
}

2.3 读取自定义二进制文件

读取自定义二进制数据与写入类似，只需使用相同的字节顺序将数据读入与写入时相同类型的值中。以下是读取自定义二进制文件的方法：

func (InvMarshaler) UnmarshalInvoices(reader io.Reader) ([]*Invoice,
error) {
    if err := checkInvVersion(reader); err != nil {
        return nil, err
    }
    count, err := readIntFromInt32(reader)
    if err != nil {
        return nil, err
    }
    invoices := make([]*Invoice, 0, count)
    for i := 0; i < count; i++ {
        invoice, err := readInvInvoice(reader)
        if err != nil {
            return nil, err
        }
        invoices = append(invoices, invoice)
    }
    return invoices, nil
}

具体操作步骤如下：
1. 检查文件版本，确保可以处理该文件。
2. 读取发票数量。
3. 创建一个容量为发票数量的切片。
4. 循环读取每张发票，并将其添加到切片中。

检查文件版本和读取整数的辅助函数如下：

func checkInvVersion(reader io.Reader) error {
    var magic uint32
    if err := binary.Read(reader, byteOrder, &magic); err != nil {
        return err
    }
    if magic != magicNumber {
        return errors.New("cannot read non-invoices inv file")
    }
    var version uint16
    if err := binary.Read(reader, byteOrder, &version); err != nil {
        return err
    }
    if version > fileVersion {
        return fmt.Errorf("version %d is too new to read", version)
    }
    return nil
}

func readIntFromInt32(reader io.Reader) (int, error) {
    var i32 int32
    err := binary.Read(reader, byteOrder, &i32)
    return int(i32), err
}

读取每张发票的函数如下：

func readInvInvoice(reader io.Reader) (invoice *Invoice, err error) {
    invoice = &Invoice{}
    for _, pId := range []*int{&invoice.Id, &invoice.CustomerId} {
        if *pId, err = readIntFromInt32(reader); err != nil {
            return nil, err
        }
    }
    for _, pDate := range []*time.Time{&invoice.Raised, &invoice.Due} {
        if *pDate, err = readInvDate(reader); err != nil {
            return nil, err
        }
    }
    if invoice.Paid, err = readBoolFromInt8(reader); err != nil {
        return nil, err
    }
    if invoice.Note, err = readInvString(reader); err != nil {
        return nil, err
    }
    var count int
    if count, err = readIntFromInt32(reader); err != nil {
        return nil, err
    }
    invoice.Items, err = readInvItems(reader, count)
    return invoice, err
}

读取日期、布尔值、字符串和项目信息的辅助函数如下：

func readInvDate(reader io.Reader) (time.Time, error) {
    var n int32
    if err := binary.Read(reader, byteOrder, &n); err != nil {
        return time.Time{}, err
    }
    return time.Parse(invDateFormat, fmt.Sprint(n))
}

func readBoolFromInt8(reader io.Reader) (bool, error) {
    var i8 int8
    err := binary.Read(reader, byteOrder, &i8)
    return i8 == 1, err
}

func readInvString(reader io.Reader) (string, error) {
    var length int32
    if err := binary.Read(reader, byteOrder, &length); err != nil {
        return "", nil
    }
    raw := make([]byte, length)
    if err := binary.Read(reader, byteOrder, &raw); err != nil {
        return "", err
    }
    return string(raw), nil
}

func readInvItems(reader io.Reader, count int) ([]*Item, error) {
    items := make([]*Item, 0, count)
    for i := 0; i < count; i++ {
        item, err := readInvItem(reader)
        if err != nil {
            return nil, err
        }
        items = append(items, item)
    }
    return items, nil
}

func readInvItem(reader io.Reader) (item *Item, err error) {
    item = &Item{}
    if item.Id, err = readInvString(reader); err != nil {
        return nil, err
    }
    if err = binary.Read(reader, byteOrder, &item.Price); err != nil {
        return nil, err
    }
    if item.Quantity, err = readIntFromInt16(reader); err != nil {
        return nil, err
    }
    item.Note, err = readInvString(reader)
    return item, nil
}

总结

通过上述介绍，我们了解了如何在Go语言中处理Go二进制（gob）文件和自定义二进制文件的读写操作。gob格式在处理数据文件和网络传输时非常方便，而自定义二进制格式可以实现更紧凑的数据表示。在实际应用中，可以根据具体需求选择合适的文件格式。

Go语言中自定义数据文件的处理

3. 两种文件处理方式对比

为了更清晰地了解处理Go二进制（gob）文件和自定义二进制文件的差异，下面从多个方面进行对比：

对比项	Go二进制（gob）文件	自定义二进制文件
易用性	使用 `encoding/gob` 包，代码简洁，无需过多关注底层细节，如处理嵌套数据时能自动处理。例如写入发票数据只需几行代码，无需手动处理每个字段的读写。	需要手动处理每个数据的读写，代码量相对较多，需要仔细处理每个字段的类型和字节顺序。例如需要自定义日期、布尔值等的读写方法。
数据表示	自描述格式，内部结构复杂，但使用时无需了解。能处理多种类型的数据，包括嵌套数据，但不能处理递归值。	可以实现最紧凑的数据表示，根据具体需求设计数据结构，能更好地控制数据的存储方式。
读写速度	读写速度较快，尤其是处理标准类型数据时。但如果结构体需要实现 `gob.GobEncoder` 和 `gob.GobDecoder` 接口，会影响读写速度。	读写速度取决于具体的实现，但通常在处理大量数据时，自定义二进制格式可能更快，因为可以根据数据特点进行优化。
文件大小	文件大小相对较大，因为包含了一些自描述信息。	通常能产生更小的文件，因为可以根据实际需求进行数据压缩和优化。

4. 实际应用场景分析

在实际开发中，需要根据不同的场景选择合适的文件处理方式：

4.1 使用Go二进制（gob）文件的场景

数据传输 ：在网络通信中，gob格式可以方便地将数据序列化和反序列化，无需手动处理数据的编码和解码。例如，在分布式系统中，不同节点之间传递数据时，使用gob格式可以提高开发效率。
数据存储 ：当需要快速存储和读取数据，且对文件大小要求不高时，gob格式是一个不错的选择。例如，在缓存系统中，将对象以gob格式存储可以快速恢复数据。

4.2 使用自定义二进制文件的场景

资源受限环境 ：在嵌入式系统或资源有限的设备中，需要尽可能减少数据的存储空间，自定义二进制格式可以实现最紧凑的数据表示。
与其他系统交互 ：当需要与使用自定义二进制格式的其他系统进行数据交互时，必须使用自定义二进制文件。例如，与特定硬件设备进行通信时，需要按照设备规定的二进制格式进行数据传输。