字节序转换

什么是字节序?
一般而言,字节序指示大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。
a) Little-Endian就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。
b) Big-Endian就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。
举个例子:一个32位的整型数 0x12345678, 在内存中的长度是4个字节。假如他在内存中的首地址是 0x10000000.
在 Little-Endian 中 
0x10000000 -> 0x78
0x10000001 -> 0x56
0x10000002 -> 0x34
0x10000003 -> 0x12
在 Big-Endian 中 
0x10000000 -> 0x12
0x10000001 -> 0x34
0x10000002 -> 0x56
0x10000003 -> 0x78
哪些平台是Little-Endian,哪些是Big-Endian?
就目前我所知道的:
       Little-Endian: PC(x86), DreamCast
       Big-Endian:    MAC, GC, XBOX360, PS3
因此在涉及到这些平台间的移植时,需要考虑到字节序转换问题。
如何判断一个平台是什么字节序?
给个简单的例子:
enum ENDIAN_TYPE {
       ENDIAN_LITTLE,
       ENDIAN_BIG,
};
ENDIAN_TYPE GetCurrentEndianType()
{
       unsigned long data = 1;
       return (*(unsigned char*)(&data) == 1) ? ENDIAN_LITTLE : ENDIAN_BIG; 
}
如何进行字节序转换?
字节序问题本身是个很简单的问题, 单独转换某个变量的字节序也是个很简单的问题,只需要一行代码就可以搞定,以32位长的整型为例, 这样一个函数就够了:
Uint32 SwapBytesUint32( Uint32 v )
{
       return (v >> 24) | ((v >> 8) & 0xff00) | ((v << 8) & 0xff0000) | (v << 24) ;
}
但是注意个函数其实有隐患, 当传入参数是浮点数时, 虽然也是32位, 但是编译器会做隐式类型转换,先将浮点数转化为整型, 再对这个整型进行字节序转换。 例如如果传入的是0.5, 会先被转换成0, 然后进行字节序转换后输出还是0。
安全的做法应该是这样:
void SwapBytesUint32_Ptr(Uint32* v)
{
       *v = (*v >> 24) | ((*v >> 8) & 0xff00) | ((*v << 8) & 0xff0000) | (*v << 24) ;
}
但在实际的移植项目中却往往非常麻烦。其根本原因是在于我们无法直接从一段内存中判断一个变量的长度。例如内存中一段数据0x12345678. 他可能是4个char, 也可能是2个short,也可能是1个long. 这3种情况下做字节序转换会得到3种不同的结果。
                  BigEndian                  LittleEndian
4个char         0x12345678         0x12345678
2个short        0x12345678         0x34127856
1个long         0x12345678         0x78563412
因此, 我们必须100%准确的知道他原来是什么类型, 才能做出正确的转换。
--------------------------------------------------------------------------------------
好了,以上其实都是老生常谈,google一搜一大把,但在实际工程应用中要比这个复杂。
首先,很少有项目能够提供完整的准确的数据结构的文档,多数情况我们只能靠猜=.=!
其次,当原始数据结构里面有指针时,单纯遍历容易出现重复转字节序的问题。
例如,这样的数据结构:
struct MapUnit { //地图单元定义
       list< MapUnit *> m_neighbors;
       //data ...
};
在上面的例子中,如果没有完整的地图单元的列表,而只能通过遍历相邻的地图转字节序时,很容易出现重复转字节序的问题。而且这种问题非常难以debug.
那么在工程中我们如何避免这种问题?从需求出发,我们需要这样一个机制,能够识别出重复转的变量,跳过或者报一个警告。很显然,需要我们在转字节序的时候将转过的变量记录下来。
可以设计一个诸如下面的代码框架:
SWAPBYTES_BEGIN();
       SWAPBYTES_UINT16_VAR(a);
       SWAPBYTES_UINT16_VAR(b);
       SWAPBYTES_UINT16_VAR(c);
       SWAPBYTES_UINT16_VAR(a); //这个时候变量a不会再一次转字节序
       SWAPBYTES_UINT16_VAR(d);
SWAPBYTES_END()
其中SWAPBYTES_BEGIN() / SWAPBYTES_END() 定义了一个代码段,在这一段代码中,对于相同地址的变量,不会进行重复的字节序转换。
具体实现是在调用SWAPBYTES_BEGIN()的时候建立一个以变量地址为key的map, 每次对变量进行字节序转换时,先检测变量的地址是否已在map中, 是的话直接跳过,否则将变量的地址(以及其他辅助信息)添加进来,然后对该变量进行字节序转换。
说实话,做移植项目的字节序转换相当痛苦…… 需要极其细心, 因为任何一个变量的遗漏都会导致bug.
而且代码中会充斥着乱七八糟的SWAPBYTES_XXXX()的代码~~~~~~  我恨移植!!!
如果是原创项目, 就可以比较干净的解决了:) 
这里介绍一种方法。 由于字节序问题的本质是在数据写入时丢失了数据长度的信息,因此我们可以在文件头中额外加入文件中每个变量的长度即可。
文件头定义如下:
struct FileHeader {
       char EndianType;
       Uint32 HeaderSize;
       char VarLen[1];
};
其中EndianType标示文件写入时是BigEndian还是LittleEndian, HeaderSize标示整个FileHeader的大小, 由于是32位的, 所以需要根据EndianType进行字节序转换。VarLen是每个变量的长度。 之后根据VarLen中的值,对文件扫描一遍就可以完全转换,不会有遗漏和重复。  这个过程可以是在运行时或者预先转好,取决于实际应用需要。
当然这个方法有一个明显的问题是数据文件会变大,通常会变为原大小的1.5倍。不过由于这种数据比较特殊(通常只是1,2,4这几个数字),有很多压缩方法可以缩小文件头,这里就不一一说明了。
### 网络编程中的字节序转换方法 在网络编程中,为了确保数据能够在不同字节序的机器间正确传输,通常需要将主机字节序转换为网络字节序。网络字节序采用的是大端字节序(Big-Endian),而许多现代处理器(如Intel x86架构)使用的则是小端字节序(Little-Endian)。因此,在跨平台的数据交换过程中,字节序转换显得尤为重要。 #### 字节序的概念 在讨论具体的转换方法之前,需明确两种常见的字节序定义: - **大端字节序**:高位字节存储在内存低地址处,低位字节存储在高地址处[^3]。 - **小端字节序**:低位字节存储在内存低地址处,高位字节存储在高地址处。 #### C语言中的字节序转换函数 C语言提供了标准库 `<arpa/inet.h>` 中的一组宏来完成字节序转换。这些宏可以用于整数类型的高低位调整: 1. `htonl` 和 `ntohl`: 这两个宏分别用于将无符号长整形数值从主机字节序转换为网络字节序 (`htonl`) 或者从网络字节序转换为主机字节序 (`ntohl`)。 2. `htons` 和 `ntohs`: 类似于上述功能,但适用于短整形类型 (short int),即 16 位数据长度。 以下是具体实现的一个例子: ```c #include <stdio.h> #include <stdint.h> #include <arpa/inet.h> int main() { uint32_t host_order = 0x12345678; uint32_t network_order; // 将主机字节序转为网络字节序 network_order = htonl(host_order); printf("Host order: 0x%x\n", host_order); // 输出原始值 printf("Network order: 0x%x\n", network_order); // 转换后的值 // 再次验证转换回主机字节序的结果是否一致 uint32_t converted_back = ntohl(network_order); printf("Converted back to host order: 0x%x\n", converted_back); return 0; } ``` 此程序展示了如何利用 `htonl` 函数把本地变量 `host_order` 的内容按照当前系统的实际字节顺序重新排列成适合互联网上传输的形式,并通过反向操作确认其可逆性[^2]。 #### 手动实现字节序转换逻辑 除了依赖系统提供的 API 外,也可以手动编代码来进行更灵活的操作。下面是一个简单的示例展示如何不借助任何外部库仅靠基本运算符就能达成相同效果: ```c uint32_t swap_endian(uint32_t value) { return ((value & 0xFF) << 24) | ((value & 0xFF00) << 8) | ((value >> 8) & 0xFF00) | ((value >> 24) & 0xFF); } // 使用方式如下: uint32_t original_value = 0x12345678; uint32_t swapped_value = swap_endian(original_value); printf("Swapped Value: 0x%x\n", swapped_value); ``` 这种方法虽然简单明了,但在性能上未必优于标准化接口;然而它确实提供了一种理解内部机制的好途径。 ### 总结 无论是使用现成的标准库还是自己动手编码解决特定需求下的特殊情况,掌握好这两类技巧对于从事网络开发工作的工程师来说都是非常必要的技能之一.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值