CPU cache(上)

最新推荐文章于 2025-06-03 12:29:48 发布

原创最新推荐文章于 2025-06-03 12:29:48 发布 · 1.5w 阅读

65 ·

CC 4.0 BY-SA版权

文章标签：

#cache #工作 #存储

体系结构专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了CPU、内存和缓存之间的关系，解释了为何在现代计算机架构中引入缓存至关重要，以及如何通过缓存提高数据访问效率。文章详细阐述了局部性原理在预测即将使用的数据方面的作用，并介绍了缓存的组织结构和操作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、CPU,内存和cache之间的关系

如今的CPU和二十几年前的相比，其精密程度和运作速度可谓天壤之别。在以前，CPU的工作频率和内存总线的频率是处于一个等级的，CPU对内存的访问速度也只是比对寄存器的访问速度要慢那么一点儿，所以CPU直接访问内存是再合理不过了。但是近十几年来，CPU发展迅猛，其工作频率大大增加，而内存的发展却无法跟上大哥的步伐。当然，并不是做不出访问频率高的内存，而是SRAM那样的高速度内存相对于作为普通内存的DRAM而言，成本过高。因此，一个折中的选择就是在CPU和内存之间引入高速缓存(cache),作为CPU和内存之间的渠道。CPU将接下来最有可能用到的数据存放在cache中，那么CPU是如何预测到接下来将要用到的数据的呢？这种预测是基于程序代码和数据在时间和空间上的局部性原理(locality)。所谓局部性原理，就是指由于循环结构的存在，在最近这段时间，同样的代码和数据很有可能再被使用。下图给出了CPU,cache和内存之间的基本关系

虽然计算机采用的是冯诺依曼架构，但是经验表明，将代码用的cache和数据用的cache分离开来效率更高。Intel正是从1993年开始，针对代码和数据使用相互独立的cache。随着cache的引入，cache和内存之间的工作频率差别又开始慢慢拉大，这样，又引入了下一级的cache,其容量比第一级大，速度比第一级慢。这同样是速度和经济的折中考虑，如今甚至有系统引入三级高速缓存，如下图所示

其中L1d是第一级数据缓存，L1i是第一级指令缓存，要注意的一点事该图只是一个概略的描述，实际上数据从任何一个CPU Core流向主存是不用经过高级缓存(L2，L3)的。

二、cache的操作

当CPU需要数据时，首先到cache内部去寻找，如果找到了，则称为命中了(cache hit)，如果没有找到，则称为丢失(cache miss)，这时CPU必须到内存去读取数据，并且将其保存在cache中以备后用。

cache中需要保存数据字在主存中的地址，cache的每个入口都被相应数据的地址所标记，当CPU要完成一次读或写操作时，会在cache中寻找匹配的标记。cache中存储的地址可以是虚拟地址，也可以是物理地址，根据cache的实现而不同。由于标记在cache中本身要占用空间，所以如果以字为粒度在cache中标记主存的地址单元那就显得有些低效。解决的办法很简单，还记得cache是基于空间的局部性原理的，由于被标记的内存字的邻近单元也有可能被使用，所以会把它们也一起加载到cache中去。因此一个cache的入口处存储的并不是单一的字，而是几个连续的字，它们被称为缓存行(cache line).

对应每个cache line，都有这样一个结构

data bolck存放的是缓存行中所保存的就是从主存取过来的数据，tag表示的是数据块在主存中的地址(并不是完整的地址)，flag bits是一些在操作过程中涉及到的标志位。

而对于主存中的每个地址单元，我们都可以按下图的结构进行解析

我们已经知道，一个cache line对应的是主存中连续的几个字，那么这些字的低位对于映射一个cache line是没用的,比如说在一个32位系统中，一个cache line的大小是16个字，也就是64个字节，那么其低6位在映射一个cache时是没有用的，其作用是用来指定该内存单元在对应cache line中的偏移。Cache Set则指明了该内存单元位于哪一个cache set(一个cache set 可以包含一个或多个cache line,这与cache和内存之间的映射关系有关，在后面会进行讲解)，S的长度为以2为底的log(cache sets)，由于一个cache set可以包含多个cache line,所以还需要高T位的tag域来指明该内存单元是位于哪个cache line中。

下面来说说flag bits域。对于指令cache来说,flag bits位只有一位，即valid位。顾名思义，valid位指明了相应的cache line中是否装载了有效的数据。系统刚上电时，所有的cache line中的valid位都被设置为invalid.对于数据cache来说，flag bits除了有valid位外，还有一个dirty位。对于cache line来说，如果读进来的数据还未被修改，则称为clean；相反，如果数据被修改了但是还没被写回内存，这时将dirty置位表示内存和cache里的数据不同步。在SMP系统中，所有的处理器都必须协调工作保证它们所看到的内存里的内容必须是一样的，这种问题被称为缓存一致性(cache coherency).假设一个处理器的cache内对某一内存有一份clean cache copy，而这时该处理器监测到另一个处理器对相应的该内存单元发出一个写请求，那么前一个处理器将会把相应的cache line给设置为dirty,等待后者的写操作完成并进行重装载，以保证数据的同步性。显然，读操作是不会影响cache的一致性的。对于cache的实现的一些细节将在下一篇中给出。

由于个人水平有限，文中描述不当或出错之处还请指出，转载请注明出处，谢谢http://blog.youkuaiyun.com/vanbreaker/article/details/7470830 。