Core2 and Nehalem pipeline

最新推荐文章于 2022-11-02 21:52:50 发布

shuiliusheng

最新推荐文章于 2022-11-02 21:52:50 发布

阅读量255

点赞数

分类专栏： computer architecture 文章标签： X86 microarchitecture

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shuiliusheng/article/details/100584071

版权

本文详细介绍了Intel的Core2和Nehalem微架构的流水线设计，包括Core2的14级流水线、双/多核设计、节能策略，以及Nehalem的私有L1/L2缓存、共享L3缓存和超线程技术。两者的指令取指、预译码、译码和微操作融合等方面进行了对比，强调了流水线优化对性能和能耗的影响。Nehalem的改进包括更深的流水线、更大的ROB和RS，以及更高效的循环缓冲和执行单元设计，提升了处理器的并行处理能力和响应速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Core2 and Nehalem pipeline

(The microarchitecture of Intel, AMD and VIA CPUs https://www.agner.org/optimize/)

介绍：
- 相对于之前的PM的设计，流水线能够每周期处理四条微操作，执行单元由原本的64位宽变为128位宽
- Core2处理器有着两个或更多的CPU，每个CPU具有私有的L1 cache，共享的L2 cache。Nehalem则是私有的L1和L2 cache，L3 cache共享
- Nehalem的四核处理器在每个核上可以同时执行两个线程
- Core2同样存在power-saving策略，能够关闭部分未被使用的部分，例如内部总线，执行单元。当执行的工作负载较小时，时钟频率也会随之下降。在Nehalem可以支持提高某一个核的频率，如果其它的核都是空闲的。
流水线结构：
- Core2 据称只有14级流水线，以减少能耗，推测执行和分支错误预测的代价。
- 论文作者实验发现转移预测错误代价最小是15个周期。作者发现Core2的取指和提交部分相对于PM有了一定的改进，因此推测Core2增加了一级用于改善指令取指和预译码，增加了另外一级用于改善指令提交
- Nehalem的转移预测错误代价最小是17个周期，因此至少也要比Core2多两个流水级
- 根据Intel官方的文档介绍，Core2的ROB大小为96表项，Nehalem为128表项。Core2的RS具有32表项，Nehalem为36表项
指令取指和预译码
- 相对于之前的处理器，Core2在转移预测和指令取指之间增加了一个队列，以减少跳转分支带来的延迟问题。
- 取指带宽受到预译码的限制，每周期16B
- 预译码和译码阶段之间存在一个64B的队列。预译码主要工作是检测每个指令的开始位置(每条指令长度在1-15B)，同时也要识别指令的前缀和指令的其它组件
- 预译码的最大吞吐量为每周期16B或者6条指令（两者之间最小的为准）。如果16B的代码块中超过了6条指令，则预译码器需要至少两个周期才能够加载下一个代码块。任何跨越了16B的代码块的指令需要被遗留到下一个代码块进行处理。ÿ

最低0.47元/天解锁文章

博客等级

码龄11年

89
原创

56
点赞

258
收藏

113
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: X86 microarchitecture(branch predictor)

下一篇：: AMD K8 and K10 pipeline

最新评论

实验纪录——GEM5+McPAT
YELLOW FLASH: 我报错了Traceback (most recent call last): File "GEM5ToMcPAT.py", line 163, in <module> main() File "GEM5ToMcPAT.py", line 56, in main dumpMcpatOut(opts.out) File "GEM5ToMcPAT.py", line 77, in dumpMcpatOut param.attrib['value'] = str(eval(str(value))) File "<string>", line 1, in <module> TypeError: unsupported operand type(s) for /: 'float' and 'list'，请问应该怎么解决呀？
Processor Microarchitecture
滴滴星星 123: aligner（定位器）具体是指什么
I-SPY Context-Driven Conditional Instruction Prefetching with Coalescing
不正经的kimol君: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指点！
Meltdown Reading Kernel Memory from User Space
DEEPBLUEEEEE: 您好，请问rdtscp.h是什么内容呢
Sniper中cache实现
yi_1973: 您好，想请教一下sniper可以输出LL3 miss的访存序列么？我看到有文章说是用sniper输出了访问trace，但是看了下sniper的配置好像并没有实现这项功能，是不是需要自己修改代码来输出呢，谢谢！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。