The Differences between Little-Endian and Big-Endian

最新推荐文章于 2022-06-09 11:11:44 发布

原创最新推荐文章于 2022-06-09 11:11:44 发布 · 850 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#cmd #网络 #motorola #编程 #跨平台 #reference

C/C++ 专栏收录该内容

194 篇文章

订阅专栏

本文详细介绍了Little-Endian和Big-Endian两种字节顺序的概念、区别以及它们在不同领域的应用，包括网络编程和跨平台编程。通过实例分析，解释了如何在不同字节顺序的机器上正确处理数据存储和传输问题。

在网络编程以及跨平台编程里面经常会提到Little-Endian 和 Big-Endian 的概念，本文就此内容做个总结。 2010-3-13 wcdj 参考资料： http://bbs.chinaunix.net/viewthread.php?tid=823662#

Little-Endian 和 Big-Endian 是表示计算机字节顺序的两种格式，所谓的字节顺序指的是长度跨越多个字节的数据的存放形式。
假设从地址 0x00 00 00 00 开始的一个字 (4 个字节 ) 中保存有数据 0x1234abcd( 十六进制 ) ，那么在两种不同的内存顺序的机器上从字节的角度去看的话分别表示为：

1) Little-Endian 在内存中的存放顺序是：

0x00000000-0xcd ( 低字节放在低位 )

0x00000001-0xab

0x00000002-0x34

0x00000003-0x12
2) Big-Endian 在内存中的存放顺序是：

0x00000000-0x12

0x00000001-0x34

0x00000002-0xab

0x00000003-0xcd   ( 低字节放在高位 )
   需要特别说明的是，以上假设机器是每个内存单元以 8 位即一个字节为单位的。
   简单的说， Little-Endian 把低字节存放在内存的低位；而 Big-Endian 将低字节存放在内存的高位。
   现在主流的 CPU ， intel 系列的是采用的 Little-Endian 的格式存放数据，而 motorola 系列的 CPU 采用的是 Big-Endian 。

以下是判断字节存储顺序的可移植的C 语言代码:

/******************************************************************** 用于判断存储格式是Little-Endian还是Big-Endian的可移植的C代码 from: C: A Reference Manual *********************************************************************/ #include <stdio.h> union { long Long; char Char[sizeof(long)]; }u; int main() { printf("sizeof(long)=%d/n",sizeof(long)); printf("sizeof(char)=%d/n",sizeof(char)); u.Long = 1; if (u.Char[0] == 1)// Little-Endian { printf("Little-Endian!/n"); } else if (u.Char[sizeof(long) - 1] == 1)// Big-Endian { printf("Big-Endian!/n"); } else { printf("Unknown!/n"); } printf("Now, Let's look at every byte in the memory!/n"); for (int i = 0; i < sizeof(long); ++i) { printf("[%x] = %x/n", &u.Char[i], u.Char[i]); } return 0; } /* 输出： sizeof(long)=4 sizeof(char)=1 Little-Endian! Now, Let's look at every byte in the memory! [4235bc] = 1 [4235bd] = 0 [4235be] = 0 [4235bf] = 0 Press any key to continue */

在网络编程中， TCP/IP 统一采用 Big-Endian 方式传送数据，也就是说，假设现在是在一个字节顺序是 Little-Endian 的机器上传送数据，要求传送的数据是 0X12345678 ，那么你就要以 0X78563412 的顺序在 unsigned int 中存放这个数据，只有这样才能保证存放的顺序满足 TCP/IP 的字节顺序要求。很多时候，需要自己编写应用层的协议，字节顺序的概念在这个时候就显得及其重要了。

下面给出的是在 Little-Endian 和 Big-Endian 中相互转换的代码， C 语言强大的位操作的能力在这里显示了出来：

/******************************************************************** 实现在Little-Endian和Big-Ednian之间数据的相互转化 *********************************************************************/ #include <stdio.h> const unsigned char SIZE_OF_UNSIGNEDINT = sizeof(unsigned int); //const unsigned char SIZE_OF_UNSIGNEDCHAR = sizeof(unsigned char); void put_32(unsigned char *cmd, unsigned int data) { int i; for (i = SIZE_OF_UNSIGNEDINT - 1; i >= 0; --i) { cmd[i] = data % 256;// 等价于0x12345678 % 0x100得后两位 // 或者用位与运算取后两位: //cmd[i] = data & 0xFF; data = data >> 8;// 向低位移动1个字节，将处理过的后两位去掉 } } unsigned int get_32(unsigned char *cmd) { unsigned int ret; int i; for (i = 0; i < SIZE_OF_UNSIGNEDINT; ++i) { ret = ret << 8;// 向高位移动1个字节 ret |= cmd[i];// 用位或运算保存cmd[i]中的值 } return ret; } int main() { unsigned char cmd[SIZE_OF_UNSIGNEDINT]; unsigned int data, ret; unsigned char *p; int i; data = 0x12345678; printf("data = %x/n", data); // 以字节为单位打印出数据 printf("实际内存中情况(低地址->高地址):"); p = (unsigned char*)(&data); for (i = 0; i < SIZE_OF_UNSIGNEDINT; ++i) { printf("%x/t", *p++); } printf("/n"); // 以相反的顺序存放到cmd之中 put_32(cmd, data); printf("实际内存中情况(低地址->高地址):"); for (i = 0; i < SIZE_OF_UNSIGNEDINT; ++i) { printf("cmd[%d] = %x/t", i, cmd[i]); } printf("/n"); // 再以相反的顺序保存数据到ret中 // 保存之后的ret数值应该与data相同 ret = get_32(cmd); printf("ret = %x/n", ret); printf("实际内存中情况(低地址->高地址):"); p = (unsigned char*)(&ret); for (i = 0; i < SIZE_OF_UNSIGNEDINT; ++i) { printf("%x/t", *p++); } printf("/n"); return 0; } /* 输出： data = 12345678 实际内存中情况(低地址->高地址):78 56 34 12 实际内存中情况(低地址->高地址):cmd[0] = 12 cmd[1] = 34 cmd[2] = 56 cmd[3] = 78 ret = 12345678 实际内存中情况(低地址->高地址):78 56 34 12 Press any key to continue */

更详细的资料如下：

一、字节序定义字节序，顾名思义字节的顺序，再多说两句就是大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。其实大部分人在实际的开发中都很少会直接和字节序打交道。唯有在跨平台以及网络程序中字节序才是一个应该被考虑的问题。在所有的介绍字节序的文章中都会提到字节序分为两类：Big-Endian和Little-Endian。引用标准的Big-Endian和Little-Endian的定义如下： a) Little-Endian就是低位字节排放在内存的低地址端，高位字节排放在内存的高地址端。 b) Big-Endian就是高位字节排放在内存的低地址端，低位字节排放在内存的高地址端。 c) 网络字节序：4个字节的32 bit值以下面的次序传输：首先是0～7bit，其次8～15bit，然后16～23bit，最后是24~31bit。这种传输次序称作大端字节序。由于TCP/IP首部中所有的二进制整数在网络中传输时都要求以这种次序，因此它又称作网络字节序。比如，以太网头部中2字节的“以太网帧类型”，表示后面数据的类型。对于ARP请求或应答的以太网帧类型来说，在网络传输时，发送的顺序是0x08，0x06。在内存中的映象如下图所示：栈底（高地址） --------------- 0x06 -- 低位 0x08 -- 高位 --------------- 栈顶（低地址）该字段的值为0x0806。按照大端方式存放在内存中。二、高/低地址与高低字节首先我们要知道我们C程序映像中内存的空间布局情况：在《C专家编程》中或者《Unix环境高级编程》中有关于内存空间布局情况的说明，大致如下图： ----------------------- 最高内存地址 0xffffffff | 栈底 . . 栈 . 栈顶 ----------------------- | | /|/ NULL (空洞) /|/ | | ----------------------- 堆 ----------------------- 未初始化的数据 ----------------(统称数据段) 初始化的数据 ----------------------- 正文段(代码段) ----------------------- 最低内存地址 0x00000000 以上图为例如果我们在栈上分配一个unsigned char buf[4]，那么这个数组变量在栈上是如何布局的呢[注1]？看下图：栈底（高地址） ---------- buf[3] buf[2] buf[1] buf[0] ---------- 栈顶（低地址）现在我们弄清了高低地址，接着来弄清高/低字节，如果我们有一个32位无符号整型0x12345678(呵呵，恰好是把上面的那4个字节buf看成一个整型)，那么高位是什么，低位又是什么呢？其实很简单。在十进制中我们都说靠左边的是高位，靠右边的是低位，在其他进制也是如此。就拿0x12345678来说，从高位到低位的字节依次是0x12、0x34、0x56和0x78。高低地址和高低字节都弄清了。我们再来回顾一下Big-Endian和Little-Endian的定义，并用图示说明两种字节序：以unsigned int value = 0x12345678为例，分别看看在两种字节序下其存储情况，我们可以用unsigned char buf[4]来表示value： Big-Endian: 低地址存放高位，如下图：栈底（高地址） --------------- buf[3] (0x78) -- 低位 buf[2] (0x56) buf[1] (0x34) buf[0] (0x12) -- 高位 --------------- 栈顶（低地址） Little-Endian: 低地址存放低位，如下图：栈底（高地址） --------------- buf[3] (0x12) -- 高位 buf[2] (0x34) buf[1] (0x56) buf[0] (0x78) -- 低位 --------------- 栈顶（低地址）在现有的平台上Intel的X86采用的是Little-Endian，而像Sun的SPARC采用的就是Big-Endian。三、例子嵌入式系统开发者应该对Little-endian和Big-endian模式非常了解。采用Little-endian模式的CPU对操作数的存放方式是从低字节到高字节，而Big-endian模式对操作数的存放方式是从高字节到低字节。例如，16bit宽的数0x1234在Little-endian模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：内存地址存放内容 0x4001 0x12 0x4000 0x34 而在Big-endian模式CPU内存中的存放方式则为：内存地址存放内容 0x4001 0x34 0x4000 0x12 32bit宽的数0x12345678在Little-endian模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：内存地址存放内容 0x4003 0x12 0x4002 0x34 0x4001 0x56 0x4000 0x78 而在Big-endian模式CPU内存中的存放方式则为：内存地址存放内容 0x4003 0x78 0x4002 0x56 0x4001 0x34 0x4000 0x12 以上是从别人那copy的，intel处理器用的是小端的，mac，ibm用的是大端网络字节序也是大端，java貌似也是大端。