大端小端模式判断以及数据转换

本文介绍了计算机中数据存储的大小端模式,详细讲解了大端和小端存储方式的区别,并提供了C语言检测和转换字节序的示例。此外,还提到了不同处理器和编译器对大小端的支持情况,以及如何通过shell命令来判断系统的字节序。

简介

在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为 8bit。但是在C语言中除了8bit的char之外,还有16bit的short型,32bit的long型(要看具体的编译器),另外,对于位数大于 8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。考虑一个short整数0xAF32(0x32是低位,0xAF是高位),把它赋值给一个short变量,那么它在内存中的存储可能有如下两种情况:

  • 大端字节(Big-endian):较高的有效字节存放在较低的存储器地址,较低的有效字节存放在较高的存储器地址。
  • 小端字节(Big-endian):字数据的高字节存储在高地址中,而字数据的低字节则存放在低地址中。
    地址    0x2000  0x2001
            +-+-+-+-+-+-+-+-+
    大端存储 |  0xAF |  0x32 |
            +-+-+-+-+-+-+-+-+
    小端存储 |  0x32 |  0xAF |
            +-+-+-+-+-+-+-+-+
    

C函数判断大小端

判断计算机的存储方式:

// 是小端模式则返回1,否则返回0
int is_little_endian()
{
	union w
	{
		int x ;
		char y ;
	}c ;
	c.x = 1;
	return (c.y==1);
}

大端模式和小端模式转换

#include<stdio.h>

typedef unsigned int uint_32 ;
typedef unsigned short uint_16 ;

#define BSWAP_16(x) \
    (uint_16)((((uint_16)(x) & 0x00ff) << 8) | \
	          (((uint_16)(x) & 0xff00) >> 8) \
			 )
#define BSWAP_32(x) \
    (uint_32)((((uint_32)(x) & 0xff000000) >> 24) | \
	          (((uint_32)(x) & 0x00ff0000) >> 8) | \
			  (((uint_32)(x) & 0x0000ff00) << 8) | \
			  (((uint_32)(x) & 0x000000ff) << 24) \
			 )

uint_16 bswap_16(uint_16 x)
{
	return (((uint_16)(x) & 0x00ff) << 8) | \
	       (((uint_16)(x) & 0xff00) >> 8) ;
}
uint_32 bswap_32(uint_32 x)
{
	return (((uint_32)(x) & 0xff000000) >> 24) | \
	       (((uint_32)(x) & 0x00ff0000) >> 8) | \
		   (((uint_32)(x) & 0x0000ff00) << 8) | \
		   (((uint_32)(x) & 0x000000ff) << 24) ;
}
int main(int argc,char *argv[])
{
	printf("------------带参宏-------------\n");
	printf("%#x\n",BSWAP_32(0x12345678));
	printf("%#x\n",BSWAP_16(0x1234)) ;
	printf("------------函数调用-----------\n");
	printf("%#x\n",bswap_32(0x12345678));
	printf("%#x\n",bswap_16(0x1234)) ;
	
	return 0 ;
}

标准库是如何识别大小端模式的

在系统头文件/usr/include/bits/endian.h中定义表示大小端的宏变量,如

# cat /usr/include/bits/endian.h 
/* i386/x86_64 are little-endian.  */

#ifndef _ENDIAN_H
# error "Never use <bits/endian.h> directly; include <endian.h> instead."
#endif

#define __BYTE_ORDER __LITTLE_ENDIAN

应用可以参考/usr/include/netinet/tcp.h/中结构体的定义,如

struct tcphdr
  {
    u_int16_t source;
    u_int16_t dest;
    u_int32_t seq;
    u_int32_t ack_seq;
#if __BYTE_ORDER == __LITTLE_ENDIAN
    u_int16_t res1:4;
    u_int16_t doff:4;
    u_int16_t fin:1;
    u_int16_t syn:1;
    u_int16_t rst:1;
    u_int16_t psh:1;
    u_int16_t ack:1;
    u_int16_t urg:1;
    u_int16_t res2:2;
#elif __BYTE_ORDER == __BIG_ENDIAN
    u_int16_t doff:4;
    u_int16_t res1:4;
    u_int16_t res2:2;
    u_int16_t urg:1;
    u_int16_t ack:1;
    u_int16_t psh:1;
    u_int16_t rst:1;
    u_int16_t syn:1;
    u_int16_t fin:1;
#else
#error "Adjust your <bits/endian.h> defines"
#endif
    u_int16_t window;
    u_int16_t check;
    u_int16_t urg_ptr;
};

两种模式的使用现状

Intel的80x86系列芯片是唯一还在坚持使用小端的芯片,ARM芯片默认采用小端,但可以切换为大端;而MIPS等芯片要么采用全部大端的方式储存,要么提供选项支持大端——可以在大小端之间切换。另外,对于大小端的处理也和编译器的实现有关,在C语言中,默认是小端(但在一些对于单片机的实现中却是基于大端,比如Keil 51C),Java是平台无关的,默认是大端。在网络上传输数据普遍采用的都是大端。

#include <stdio.h>
struct ST{
    short val1;
    short val2;
};
union U{
    int val;
    struct ST st;
};
 
int main(void)
{
    int a = 0;
    union U u1, u2;
 
    a = 0x12345678;
    u1.val = a;
    printf("u1.val is 0x%x\n", u1.val);
    printf("val1 is 0x%x\n", u1.st.val1);
    printf("val2 is 0x%x\n", u1.st.val2);
    printf("after first convert is: 0x%x\n", htonl(u1.val));
    u2.st.val2 = htons(u1.st.val1);
    u2.st.val1 = htons(u1.st.val2);
    printf("after second convert is: 0x%x\n", u2.val);
    return 0;
}

shell命令判断大小端模式

  • dpkg-architecture命令
    $ dpkg-architecture 
    DEB_BUILD_ARCH=arm64
    DEB_BUILD_ARCH_ABI=base
    DEB_BUILD_ARCH_BITS=64
    DEB_BUILD_ARCH_CPU=arm64
    DEB_BUILD_ARCH_ENDIAN=little
    DEB_BUILD_ARCH_LIBC=gnu
    DEB_BUILD_ARCH_OS=linux
    DEB_BUILD_GNU_CPU=aarch64
    DEB_BUILD_GNU_SYSTEM=linux-gnu
    DEB_BUILD_GNU_TYPE=aarch64-linux-gnu
    DEB_BUILD_MULTIARCH=aarch64-linux-gnu
    DEB_HOST_ARCH=arm64
    DEB_HOST_ARCH_ABI=base
    DEB_HOST_ARCH_BITS=64
    DEB_HOST_ARCH_CPU=arm64
    DEB_HOST_ARCH_ENDIAN=little
    DEB_HOST_ARCH_LIBC=gnu
    DEB_HOST_ARCH_OS=linux
    DEB_HOST_GNU_CPU=aarch64
    DEB_HOST_GNU_SYSTEM=linux-gnu
    DEB_HOST_GNU_TYPE=aarch64-linux-gnu
    DEB_HOST_MULTIARCH=aarch64-linux-gnu
    DEB_TARGET_ARCH=arm64
    DEB_TARGET_ARCH_ABI=base
    DEB_TARGET_ARCH_BITS=64
    DEB_TARGET_ARCH_CPU=arm64
    DEB_TARGET_ARCH_ENDIAN=little
    DEB_TARGET_ARCH_LIBC=gnu
    DEB_TARGET_ARCH_OS=linux
    DEB_TARGET_GNU_CPU=aarch64
    DEB_TARGET_GNU_SYSTEM=linux-gnu
    DEB_TARGET_GNU_TYPE=aarch64-linux-gnu
    DEB_TARGET_MULTIARCH=aarch64-linux-gnu
    
  • lscpu命令
    $ lscpu
    Architecture:        aarch64
    Byte Order:          Little Endian
    CPU(s):              4
    On-line CPU(s) list: 0-3
    Thread(s) per core:  1
    Core(s) per socket:  4
    Socket(s):           1
    Vendor ID:           ARM
    Model:               4
    Model name:          Cortex-A53
    Stepping:            r0p4
    CPU max MHz:         1296.0000
    CPU min MHz:         408.0000
    BogoMIPS:            48.00
    L1d cache:           unknown size
    L1i cache:           unknown size
    L2 cache:            unknown size
    Flags:               fp asimd evtstrm aes pmull sha1 sha2 crc32 cpuid
    

延伸阅读:

准确详解:C/C++ float、double数据类型的表示范围及精度

<think> 我们正在讨论四字节数据的大端和小模式。根据引用[1]和引用[2],大小端模式是由于计算机系统中多字节数据在内存中的存储顺序不同而产生的。对于四字节数据(32位),同样存在大端模式和小模式。 引用[1]提到,大端模式是将数据的高位字节存储在内存的低地址处,而低位字节存储在内存的高地址处。小模式则相反,低位字节存储在低地址处,高位字节存储在高地址处。 例如,一个32位整数0x11223344(这里0x11是最高字节,0x44是最低字节): - 大端模式(Big Endian)存储: 地址递增方向:0x11, 0x22, 0x33, 0x44 即:低地址(起始地址)存储最高字节0x11,然后依次是0x22, 0x33,最高地址存储0x44。 - 小模式(Little Endian)存储: 地址递增方向:0x44, 0x33, 0x22, 0x11 即:低地址(起始地址)存储最低字节0x44,然后依次是0x33, 0x22,最高地址存储0x11。 我们可以通过一段代码来检测当前系统是大端模式还是小模式(类似于引用[3]的方法,但针对32位整数)。以下是一个JavaScript的示例(因为引用[3]使用了JavaScript): ```javascript // 判断当前系统是小模式还是大端模式(针对32位整数) var littleEndian = (function() { var buffer = new ArrayBuffer(4); // 四字节的缓冲区 // 使用DataView写入一个32位整数,以小模式写入一个特定的值 new DataView(buffer).setUint32(0, 0x01020304, true); // 第三个参数true表示小模式 // 读取第一个字节(低地址处的字节) var firstByte = new DataView(buffer).getUint8(0); // 如果第一个字节是0x04(即最低有效字节),则为小模式 return firstByte === 0x04; })(); ``` 解释: 1. 创建一个4字节的缓冲区(ArrayBuffer)。 2. 使用DataView对象,以小模式(true)写入0x01020304。如果是小模式,则内存布局(从低地址到高地址)应为:0x04, 0x03, 0x02, 0x01。 3. 读取第一个字节(地址0),如果该字节是0x04(即写入值的最低有效字节),则说明系统是小模式,否则是大端模式。 注意:上面的代码中,写入时指定了小模式(true),但这不是用来判断系统字节序,而是我们人为地以小模式写入一个数,然后通过读取第一个字节来判断实际存储顺序。实际上,我们也可以不使用第三个参数(即使用系统的默认字节序),然后判断存储的顺序。但是上面的方法实际上是在测试当前系统默认的字节序。实际上,引用[3]的方法更直接:写入一个特定的数(256,即0x0100),然后读取整个16位数,看是否与256相等。这里我们将其扩展为32位。 另一种更直接的方法(用C语言伪代码): ```c #include <stdio.h> int main() { int x = 0x11223344; char *p = (char*)&x; if (*p == 0x44) { printf("小模式\n"); } else if (*p == 0x11) { printf("大端模式\n"); } return 0; } ``` 原理:将32位整数的地址强制转换为字符指针(一个字节),然后取第一个字节(最低地址)的内容。如果是0x44(最低有效字节),则是小模式;如果是0x11(最高有效字节),则是大端模式。 在网络传输中,通常使用大端模式(网络字节序)。因此,不同系统之间进行网络通信时,需要将数据转换为网络字节序(大端模式)。例如,在socket编程中,会用到`htonl`(host to network long)和`ntohl`(network to host long)等函数进行转换。 总结: - 大端模式:人类阅读顺序,高位在前(低地址),低位在后(高地址)。 - 小模式:计算机处理方便,低位在前(低地址),高位在后(高地址)。 相关问题: 1. 四字节数据在内存中的大端模式和小模式具体存储方式有什么不同? 2. 如何用程序检测当前系统是大端模式还是小模式(以32位整数为例)? 3. 为什么网络传输要使用大端模式(网络字节序)? 4. 编程中如何实现大端和小模式之间的转换? </think> ### 四字节数据大端模式详解 大端(Big-Endian)和小(Little-Endian)是计算机系统中两种不同的字节序(Byte Order)存储方式,主要区别在于多字节数据在内存中的字节排列顺序不同。四字节数据(32位)的存储差异尤为显著。 #### **存储方式对比** 设有一个32位十六进制数:`0x12 34 56 78`(最高字节`0x12`,最低字节`0x78`) 1. **大端模式** - **高位字节存储在低地址** - 内存布局(地址递增方向): ``` 地址0x1000: 0x12 (最高字节) 地址0x1001: 0x34 地址0x1002: 0x56 地址0x1003: 0x78 (最低字节) ``` - **直观顺序**:类似人类书写顺序(如`12345678`)[^1][^2] 2. **小模式** - **低位字节存储在低地址** - 内存布局(地址递增方向): ``` 地址0x1000: 0x78 (最低字节) 地址0x1001: 0x56 地址0x1002: 0x34 地址0x1003: 0x12 (最高字节) ``` - **逆向存储**:地址递增方向与数值权重递减方向相反[^1][^2] #### **判断系统字节序的方法(C语言实现)** ```c #include <stdio.h> int main() { int value = 0x12345678; // 四字节测试值 char *byte_ptr = (char *)&value; // 转换为单字节指针 // 检查首字节内容 if (*byte_ptr == 0x78) { printf("小模式 (Little-Endian)\n"); } else if (*byte_ptr == 0x12) { printf("大端模式 (Big-Endian)\n"); } return 0; } ``` **原理**:通过指针访问首字节(低地址),若为最低字节值(`0x78`)则是小,若为最高字节值(`0x12`)则是大端[^3]。 #### **应用场景差异** | **架构类型** | **字节序** | **典型代表** | |--------------------|-------------|----------------------------------| | x86/x64 CPU | 小模式 | Intel/AMD处理器 | | ARM CPU | 可配置 | 多数移动设备(默认小) | | 网络传输协议 | **大端模式** | TCP/IP (网络字节序标准) | | PowerPC/RISC | 大端模式 | IBM服务器、老式游戏主机 | #### **转换必要性** 1. **跨平台数据交互**:不同字节序设备通信需转换(如网络传输用`htonl()`/`ntohl()`函数)。 2. **文件格式解析**:JPEG/PDF等文件头需按指定字节序读取。 3. **硬件寄存器访问**:外设寄存器可能要求特定字节序。 > 💡 **关键差异**:大端模式更符合人类阅读习惯(高位在前),小模式简化了算术运算(低字节对齐)[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

callinglove

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值