协议缓冲区

协议缓冲区是一种语言中立、平台中立的序列化机制,用于向前和向后兼容地序列化结构化数据。它在多种编程语言间提供兼容性,支持数据的高效存储和网络传输。协议缓冲区的主要优点包括紧凑存储、快速解析和跨语言支持。尽管它不适合处理大型数据或某些科学计算场景,但在服务器间通信和数据存储中广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1,概述

协议缓冲区提供了一种语言中立、平台中立、可扩展的机制,用于以向前兼容和向后兼容的方式序列化结构化数据。它类似于 JSON,只是它更小更快,并且生成本地语言绑定。协议缓冲区是定义语言(在 .proto文件中创建)、proto 编译器生成的与数据接口的代码、特定于语言的运行时库以及写入文件(或通过网络连接)。

2,作用

协议缓冲区为大小高达几兆字节的类型化结构化数据包提供了一种序列化格式。该格式适用于临时网络流量和长期数据存储。可以使用新信息扩展协议缓冲区,而无需使现有数据无效或需要更新代码。广泛用于服务器间通信以及磁盘上数据的归档存储。协议缓冲区消息和服务由工程师编写的.proto文件描述。下面显示了一个示例message:

message Person {
  optional string name = 1;
  optional int32 id = 2;
  optional string email = 3;
}

在构建.proto文件时调用 proto 编译器以生成各种编程语言的代码来操作相应的协议缓冲区。每个生成的类都包含每个字段的简单访问器和方法,用于序列化和解析整个结构与原始字节之间的关系。由于协议缓冲区在 Google 的各种服务中广泛使用,并且其中的数据可能会保留一段时间,因此保持向后兼容性至关重要。协议缓冲区允许无缝支持对任何协议缓冲区的更改,包括添加新字段和删除现有字段,而不会破坏现有服务。

3,优势

协议缓冲区非常适合任何需要以语言中立、平台中立、可扩展的方式序列化结构化、类似记录、类型化数据的情况。它们最常用于定义通信协议(与 gRPC 一起)和数据存储。 使用协议缓冲区的一些优点包括:紧凑的数据存储、快速解析、许多编程语言的可用性、通过自动生成的类优化功能。

4,跨语言兼容性

以任何受支持的编程语言编写的代码都可以读取相同的消息。您可以让一个平台上的 Java 程序从一个软件系统捕获数据,根据.proto定义对其进行序列化,然后在另一个平台上运行的单独 Python 应用程序中从序列化数据中提取特定值。目前在协议缓冲区GitHub存储库中提供 Java、C++、Dart、Python、Objective-C、C#、lite-runtime (Android Java)、Ruby 和 JavaScript 版本,以及来自 golang/protobuf 官方包的 Go 语言生成器。

5,前后兼容

软件产品向后兼容是标准,但向前兼容却不太常见。只要您在更新定义时遵循一些简单的做法.proto ,旧代码将毫无问题地读取新消息,而忽略任何新添加的字段。对于旧代码,删除的字段将具有默认值,删除的重复字段将为空。新代码也将透明地读取旧消息。旧消息中不会出现新字段;在这些情况下,协议缓冲区提供了一个合理的默认值。

6,不适合的情况

  • 协议缓冲区倾向于假设整个消息可以一次加载到内存中并且不大于对象图。对于超过几兆字节的数据,考虑不同的解决方案;在处理较大的数据时,由于序列化副本,您可能会有效地获得多个数据副本,这可能会导致内存使用量出现惊人的峰值。
  • 当协议缓冲区被序列化时,相同的数据可以有许多不同的二进制序列化。如果不完全解析它们,就无法比较两条消息的相等性。
  • 消息未压缩。虽然消息可以像任何其他文件一样被压缩或 gzip 压缩,但专用压缩算法(如 JPEG 和 PNG 使用的压缩算法)将为适当类型的数据生成小得多的文件。
  • 对于涉及大型多维浮点数数组的许多科学和工程用途,协议缓冲区消息在大小和速度方面都没有达到最大效率。对于这些应用程序, FITS和类似格式的开销较小。
  • 协议缓冲区在科学计算中流行的非面向对象语言(例如 Fortran 和 IDL)中没有得到很好的支持。
  • 协议缓冲区消息本身并不自我描述其数据,但它们具有完全反射的模式,您可以使用它来实现自我描述。也就是说,如果不访问其相应的.proto文件,您将无法完全解释它。
  • 协议缓冲区不是任何组织的正式标准。这使得它们不适合在具有法律或其他要求以建立在标准之上的环境中使用。

7,工作过程

image.png

协议缓冲区生成的代码提供了实用方法来从文件和流中检索数据、从数据中提取单个值、检查数据是否存在、将数据序列化回文件或流以及其他有用的功能。以下代码示例向您展示了 Java 中此流程的示例。如前所述,这是一个.proto定义:

message Person {
  optional string name = 1;
  optional int32 id = 2;
  optional string email = 3;
}

编译此.proto文件会创建一个Builder类,您可以使用它来创建新实例,如以下 Java 代码所示:

Person john = Person.newBuilder()
.setId(1234)
.setName("John Doe")
.setEmail("jdoe@example.com")
.build();
output = new FileOutputStream(args[0]);
john.writeTo(output);

然后,您可以使用 protocol buffers 在其他语言(如 C++)中创建的方法反序列化数据:

Person john;
fstream input(argv[1], ios::in | ios::binary);
john.ParseFromIstream(&input);
int id = john.id();
std::string name = john.name();
std::string email = john.email();

8,字段类型

协议缓冲区支持通常的原始数据类型,例如整数、布尔值和浮点数,另外还有message、enum、oneof、map类型

  • message类型,以便可以嵌套部分定义,例如用于重复数据集。
  • enum类型,可以指定一组值以供选择。
  • oneof类型,当消息有许多可选字段并且最多同时设置一个字段时可以使用该类型。
  • map类型,用于将键值对添加到您的定义中。

在设置可选性和字段类型后,需要分配一个字段编号。字段编号不能改变用途或重复使用。如果删除一个字段,应该保留其字段编号,以防止有人意外重复使用该编号。

9,额外的数据类型支持

协议缓冲区支持许多标量值类型,包括使用可变长度编码和固定大小的整数。还可以通过定义消息来创建自己的复合数据类型,这些消息本身就是可以分配给字段的数据类型。除了简单和复合值类型之外,还发布了几种常见类型。

  • Duration是有符号的、固定长度的时间跨度,例如 42 秒。
  • Timestamp是独立于任何时区或日历的时间点,例如 2017-01-15T01:30:15.01Z。
  • Interval是独立于时区或日历的时间间隔,例如 2017-01-15T01:30:15.01Z - 2017-01-16T02:30:15.01Z。
  • Date是一个完整的日历日期,例如 2025-09-19。
  • DayOfWeek是一周中的某一天,例如星期一。
  • TimeOfDay是一天中的某个时间,例如 10:42:23。
  • LatLng是一个纬度/经度对,例如 37.386051 纬度和 -122.083855 经度。
  • Money是具有货币类型的金额,例如 42 美元。
  • PostalAddress是邮政地址,例如 1600 Amphitheatre Parkway Mountain View, CA 94043 USA。
  • Color是 RGBA 颜色空间中的一种颜色。
  • Month是一年中的一个月,例如四月。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值