protobuf 中使用的Varint技术

Varint是一种高效的数字编码方式,通过调整字节数量来优化数据存储。本文介绍Varint的基本原理,包括其如何通过字节的最高位来指示数字的结束,以及在Google Protocol Buffer中的应用,展示了如何用更少的字节表示小数值,从而节省存储空间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。

比如对于 int32 类型的数字,一般需要 4 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 1 个 byte 来表示。当然凡事都有好的也有不好的一面,采用 Varint 表示法,大的数字则需要 5 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。下面就详细介绍一下 Varint。

Varint 中的每个 byte 的最高位 bit 有特殊的含义,如果该位为 1,表示后续的 byte 也是该数字的一部分,如果该位为 0,则结束。其他的 7 个 bit 都用来表示数字。因此小于 128 的数字都可以用一个 byte 表示。大于 128 的数字,比如 300,会用两个字节来表示:1010 1100 0000 0010

下图演示了 Google Protocol Buffer 如何解析两个 bytes。注意到最终计算前将两个 byte 的位置相互交换过一次,这是因为 Google Protocol Buffer 字节序采用 little-endian 的方式。
在这里插入图片描述
消息经过序列化后会成为一个二进制数据流,该流中的数据为一系列的 Key-Value 对。如下图所示:
在这里插入图片描述
采用这种 Key-Pair 结构无需使用分隔符来分割不同的 Field。对于可选的 Field,如果消息中不存在该 field,那么在最终的 Message Buffer 中就没有该 field,这些特性都有助于节约消息本身的大小。

以代码清单 1 中的消息为例。假设我们生成如下的一个消息 Test1:

Test1.id = 10; 
Test1.str = “hello”;

则最终的 Message Buffer 中有两个 Key-Value 对,一个对应消息中的 id;另一个对应 str。

Key 用来标识具体的 field,在解包的时候,Protocol Buffer 根据 Key 就可以知道相应的 Value 应该对应于消息中的哪一个 field。

Key 的定义如下:

(field_number << 3) | wire_type

可以看到 Key 由两部分组成。第一部分是 field_number,比如消息 lm.helloworld 中 field id 的 field_number 为 1。第二部分为 wire_type。表示 Value 的传输类型。

Wire Type 可能的类型如下表所示:

在这里插入图片描述
在我们的例子当中,field id 所采用的数据类型为 int32,因此对应的 wire type 为 0。细心的读者或许会看到在 Type 0 所能表示的数据类型中有 int32 和 sint32 这两个非常类似的数据类型。Google Protocol Buffer 区别它们的主要意图也是为了减少 encoding 后的字节数。

type RtaApiRequest struct { Qid *uint64 `protobuf:"varint,1,req,name=qid" json:"qid,omitempty"` // 请求唯一标识 OsType *OsType `protobuf:"varint,2,req,name=os_type,json=osType,enum=iosbaidu.ad.rta.OsType" json:"os_type,omitempty"` // 操作系统类型: DeviceIdMd5 *string `protobuf:"bytes,3,req,name=device_id_md5,json=deviceIdMd5" json:"device_id_md5,omitempty"` // 该字段已停止下发,后续直接对接device_info字段。 SignTime *uint64 `protobuf:"varint,4,req,name=sign_time,json=signTime" json:"sign_time,omitempty"` // 调用的时间戳, 1970-01-01后的毫秒数 Token *string `protobuf:"bytes,5,req,name=token" json:"token,omitempty"` // 验证令牌,其值为md5(qid+sign_time+客户独有标识),开屏为客户url的md5 AndroidDeviceType *AndroidDeviceIdType `protobuf:"varint,6,opt,name=android_device_type,json=androidDeviceType,enum=iosbaidu.ad.rta.AndroidDeviceIdType" json:"android_device_type,omitempty"` // 该字段已停止使用,后续直接对接device_info字段。 DeviceInfo *DeviceInfo `protobuf:"bytes,8,opt,name=device_info,json=deviceInfo" json:"device_info,omitempty"` // 用户设备信息 FlowType *FlowType `protobuf:"varint,9,opt,name=flow_type,json=flowType,enum=iosbaidu.ad.rta.FlowType" json:"flow_type,omitempty"` // 流量类型 MediaId *uint64 `protobuf:"varint,11,opt,name=media_id,json=mediaId" json:"media_id,omitempty"` //媒体id OsMajorVersion *uint32 `protobuf:"varint,14,opt,name=os_major_version,json=osMajorVersion" json:"os_major_version,omitempty"` //系统主版本号,仅用于品牌广告百度系开屏流量使用 IsDpaRequest *bool `protobuf:"varint,15,opt,name=is_dpa_request,json=isDpaRequest" json:"is_dpa_request,omitempty"` //标记请求是否为DPA请求(需要商品) PrefetchDate *string `protobuf:"bytes,16,opt,name=prefetch_date,json=prefetchDate" json:"prefetch_date,omitempty"` //表示在未来发生投放的某个时间点,用于预请求;如果没有,则指当天,仅用于品牌广告百度系开屏流量使用 Timestamp *uint64 `protobuf:"varint,17,opt,name=timestamp" json:"timestamp,omitempty"` //请求的时间戳,单位s,仅用于品牌广告百度系开屏流量使用 BesMediaGroup *uint32 `protobuf:"varint,18,opt,name=bes_media_group,json=besMediaGroup" json:"bes_media_group,omitempty"` // 媒体行业 ExpId *uint32 `protobuf:"varint,20,opt,name=exp_id,json=expId" json:"exp_id,omitempty"` // 客户实验号,该字段需申请流量分桶能力后再下发 } 下面的if应该怎么写: if req.IsDpaRequest { }
最新发布
08-08
type RtaApiResponse struct { Qid *uint64 `protobuf:"varint,1,req,name=qid" json:"qid,omitempty"` Res *ResType `protobuf:"varint,2,req,name=res,enum=iosbaidu.ad.rta.ResType" json:"res,omitempty"` UserScore *uint32 `protobuf:"varint,3,opt,name=user_score,json=userScore" json:"user_score,omitempty"` // 客户打分,可选,DPA暂不可用 AdResults []*AdResult `protobuf:"bytes,4,rep,name=ad_results,json=adResults" json:"ad_results,omitempty"` // 指定要出的广告组,可选 StrategyResults []*RtaStrategyAdResult `protobuf:"bytes,5,rep,name=strategy_results,json=strategyResults" json:"strategy_results,omitempty"` DpaResults *DpaResult `protobuf:"bytes,6,opt,name=dpa_results,json=dpaResults" json:"dpa_results,omitempty"` // DPA相关数据 RtaBidRise []*BidRise `protobuf:"bytes,8,rep,name=rta_bid_rise,json=rtaBidRise" json:"rta_bid_rise,omitempty"` //分rta_id的溢价系数,rta_id不填则为所有召回广告的溢价系数。 PrefetchDate *string `protobuf:"bytes,9,opt,name=prefetch_date,json=prefetchDate" json:"prefetch_date,omitempty"` //表示在未来发生投放的某个时间点,用于预请求;如果没有,则指当天,仅用于品牌广告百度系开屏流量使用 RtaBidType *RtaBidType `protobuf:"varint,10,opt,name=rta_bid_type,json=rtaBidType,enum=iosbaidu.ad.rta.RtaBidType" json:"rta_bid_type,omitempty"` // 标志是否使用rta溢价 RtaBid []*RtaBid `protobuf:"bytes,11,rep,name=rta_bid,json=rtaBid" json:"rta_bid,omitempty"` // rta直接出价,必须配合策略id使用,用于ocpx的浅层转化出价 RtaCpcBid []*RtaBid `protobuf:"bytes,12,rep,name=rta_cpc_bid,json=rtaCpcBid" json:"rta_cpc_bid,omitempty"` // rta直接出价,必须配合策略id使用,用于cpc广告 } type DpaResult struct { PidLists []*DpaResult_ProductList `protobuf:"bytes,1,rep,name=pid_lists,json=pidLists" json:"pid_lists,omitempty"` // 多组候选商品队列参竞 } 其中type DpaResult_ProductList struct { Priority *DpaResult_ProductList_Priority `protobuf:"varint,1,req,name=priority,enum=iosbaidu.ad.rta.DpaResult_ProductList_Priority" json:"priority,omitempty"` // 候选商品队列优先级 PidList []*DpaResult_ProductList_Product `protobuf:"bytes,2,rep,name=pid_list,json=pidList" json:"pid_list,omitempty"` // 候选商品队列 CatalogId *uint64 `protobuf:"varint,3,opt,name=catalog_id,json=catalogId" json:"catalog_id,omitempty"` // 商品目录id(可选,非必须) } 现在resp := &baiduRta.RtaApiResponse{},想设置resp.DpaResults,怎么操作
08-06
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值