深度剖析数据在内存中的存储

最新推荐文章于 2025-12-20 15:00:56 发布

原创最新推荐文章于 2025-12-20 15:00:56 发布 · 695 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #c语言 #java

c语言学习笔记专栏收录该内容

3 篇文章

订阅专栏

本文深入讲解了数据在计算机中的存储方式，包括不同类型数据的存储形式、整型的原码、反码、补码概念及补码的重要性，浮点数遵循的IEEE 754标准，以及大小端的区别。

数据存储知识进阶

重点内容
前言
一、数据类型的详细介绍
- 数据类型介绍
- 类型的基本归类
二、整型在内存中的存储
总结

重点内容

前言

数据，是编程语言的组成元素，也是我们编码所要处理的目标，程序运行的过程中就是在不断地创建、运算、处理各种各样的数据。本篇博客将深入的介绍各种数据类型以及他们在计算机中的存储

一、数据类型的详细介绍

数据类型介绍

c语言中基本的内置类型有以下几种：

char //字符数据类型
short //短整型
int //整型
long //长整型
long long //更长的整型
float //单精度浮点型
double //双精度浮点型

注意：c语言没有字符串类型
各种类型在不同操作系统下所占用的内存空间不同，如long型在32位操作系统和64位操作系统下占用内存分别为4字节和8字节。

类型的基本归类

整数类型：

char、short、int、long

浮点数类型：

float、double

构造类型：

数组类型
结构体类型 struct
枚举类型 enum
联合体类型 union

指针类型：

int *pi;
char *pc
float *pf
void *pv
…

空类型：

void 表示空类型（无类型）
通常用于函数的返回类型、函数的参数、指针类型。

二、整型在内存中的存储

一个变量的创建是要在内存中开辟空间的，空间大小是根据不同的类型以及不同的操作系统决定的。那么数据在开辟的内存中是如何存储的呢？
比如：
int a=20；
int b=-10;
我们知道计算机为a分配了四个字节的空间，那这四个字节每个比特位都是如何存储的？
先了解下面的概念：

原码、反码、补码

计算机中的有符号数有三种表示方法，即原码、补码、反码。
三种表示方法都有符号位和数值位两部分，符号位都是用0表示正，用1表示负，而数值位三种表示方法各不相同。

原码
直接将二进制按照正负数的形式翻译成二进制就行
反码
将原码符号位不变，其他位依次按位取反得到反码
补码
反码+1就得到补码

正数的原码反码补码都相同。
对于整形来说：数据存放内存中其实存放的是补码
为什么？

在计算机系统中，数值一律用补码来表示和存储。原因在于，使用补码，可以将符号位和数值域统一处理；同时，加法和减法也可以统一处理（CPU只有加法器），此外，补码与源码相互转换，其运算过程是相同的，不需要额外的硬件电路。

看一下内存中两个变量的存储：
在这里插入图片描述
可以看到对于a和b都存储的是补码，但是顺序并不是所预想的 00 00 00 14
为什么呢？这就牵扯到另一个知识点了：大小端。

大小端介绍

什么是大端小端：

大端存储模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；
小端存储模式，是指数据的低位保存在内存的低地址中，而数据的高位，保存在内存的高地址中；

为什么有大端和小端：

因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8bit。
但是在C语言中除了8bit的char之外，还有16bit的short型，32bit的int型。另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如果将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。

例如一个16bit的short型x，在内存中的地址为0x0010，x的值为0x1122，那么0x11为高字节，0x22为低字节。
对于大端模式，就将0x11放在低地址中，即0x0010中，0x22放在高地址中，即0x0011中。小端模式，刚好相反。

字节序

在这里再插入一个知识点 字节序：是指CPU对内存中的数据以字节为单位进行存取的顺序，内存是有高低地址之分的，而每个数据的二进制又有高低位之分。

主机的字节序取决于cpu的架构：X86–小端 MIPS–大端
例如 int a=1;小端中存储的是 00 00 00 01 ,大端则是 01 00 00 00

字节序针对的数据：针对存储单元大于一个字节的数据类型：short、int、long、float、double；而char a[10]这种字符数组是不受影响的。

如何判断当前主机的字节序（大小端）呢？

# include <stdio.h>
int main()
{
    int a=1;
    char *p=&a;
    if(*p==1)
    printf("当前机器是小端");
    else
    printf("当前机器是大端");
    return;
}

在上面这个程序中，因为a变量占用了四个字节，大端中a变量：0x 00 00 00 01 小端中a变量：0x 01 00 00 00
而*p是char类型只占用一个字节，将a变量首地址(低地址)处一个字节内的数据赋给p，如果是1就是小端如果是0就是大端。

浮点数的存储

根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

*(-1)^S * M * 2 ^E
*(-1)^S表示符号位，当s=0，V为正数，当s=1，V为负数。
*M表示有效数字，大于等于1，小于2。
*2^E表示指数位

举例来说:十进制的5.0，写成二进制是101.0，相当于1.01×2^2。那么，按照上面的标准，可以得出s=0，M=1.01，E=2。 btw，小数的存储采用二进制用乘二取整法。

IEEE 754规定：对于32位的浮点数，最高的1位是符号位接着的8位是指数E，剩下的23位是有效数字M。
在这里插入图片描述
对于64位的浮点数，最高1位是符号位，接着的11位是指数E，剩下的52位为有效数字M。

存储规则：

因为指数位的数值有时候可能是负数，但是指数域是无符号的，无法表示负数，所以采用指数基数：127，真正指数位存储的数据是实际指数值+127。专业的说法叫做使用数字的移码-1；移码：正数的移码就是符号位取反
因为浮点存储在进行浮点移动的时候，总会移动到第一个1的后边，因此所有的数字表示都是1.xxxxxxx
采用这种方式之后，因为尾数部分，第一个比特位总是存储1，如果把这个1忽略掉，采用这种规则，用的时候再加上，这个1就不用存储了，可以节省一个比特位。

举个栗子：
在这里插入图片描述