The Load Slice Core Microarchitecture

最新推荐文章于 2020-12-03 16:46:41 发布

shuiliusheng

最新推荐文章于 2020-12-03 16:46:41 发布

阅读量380

点赞数 1

CC 4.0 BY-SA版权

分类专栏： computer architecture 文章标签： inorder memory hierarchy parallelism

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shuiliusheng/article/details/88937798

论文提出了Load Slice Core微架构，旨在挖掘内存层次结构的并行性，同时优化能效。该架构扩展了按序处理器，允许内存访问和地址计算指令在主流水线停顿时绕过，通过限制乱序执行，保持简单结构，从而提高性能和能效。实验表明，相对于按序和乱序处理器，LSC在性能和能效方面均有显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

The Load Slice Core Microarchitecture

摘要：
- 背景：
  - 为了挖掘ILP，处理器从简单的按序流水线发展为超标量乱序流水线。利用超标量乱序流水线在提高ILP的同时，也能够提高cache和memory操作的并行。
  - 但是随着片外的存储墙和更复杂多核中的缓存层级结构，cache和memory的访问代价变得更大，因此MHP（memory hierarchy parallelism）的重要性也更加重要。
  - 多核处理器经常工作在功耗和能耗受限的环境中，因此能效将会更加重要
- 论文工作
  - 目标：提出一种处理器微架构（Load Slice Core），能够提供对存储层次结构的并行访问，同时最大化能效
  - Load Slice Core：使用第二条按序流水线扩展了一个按序，stall-on-use(正在使用而停顿)的高效流水线，第二条流水线允许内存访问和地址生成指令绕过原本流水线中停顿的指令
  - 在该结构中，利用硬件实现了自动提取包含load和store指令的地址计算指令的向后程序片（backward program slice）
- 论文结果：
  - LSC相对于基准的按序处理器，性能提升了53%，面积增加了13%，功耗增加了22%。在能效上（MIPS/Watt），相对于按序和乱序流水线提高了43%和4.7倍
  - 对于一个功耗和面积限制的众核设计中，LSC相对于乱序和按序设计，能够提高53%和95%的性能
介绍：
- 现状：首先处理器性能的发展和主存的发展不协调，出现了存储墙；其次是ILP提取的饱和和功耗的限制使得多核和众核的出现；随着而来的是众核导致的更加复杂的片上存储层级结构和更复杂的一致性处理，存储的访问延迟也会因此提高
- MHP（memory hierarchy parallelism）：论文定义为从核的角度，是发生在缓存的所有层次的重叠的存储存取操作的平均数目
- 乱序处理器：乱序处理器在挖掘ILP的同时也会自动提高MHP，但是这种做法的代价很大，包括芯片设计复杂度，功耗和面积
- 已有的阻止处理器由于长延迟loads而停顿的技术
  - runahead execution：提前执行，以发现并且预取独立的数据

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄11年

89
原创

56
点赞

260
收藏

114
粉丝

关注

私信

热门文章

分类专栏

上一篇：: The Accelerator Wall： Limits of Chip Specialization

下一篇：: Freeway：Maximizing MLP for Slice-Out-of-Order Execution

最新评论

实验纪录——GEM5+McPAT
YELLOW FLASH: 我报错了Traceback (most recent call last): File "GEM5ToMcPAT.py", line 163, in <module> main() File "GEM5ToMcPAT.py", line 56, in main dumpMcpatOut(opts.out) File "GEM5ToMcPAT.py", line 77, in dumpMcpatOut param.attrib['value'] = str(eval(str(value))) File "<string>", line 1, in <module> TypeError: unsupported operand type(s) for /: 'float' and 'list'，请问应该怎么解决呀？
Processor Microarchitecture
滴滴星星 123: aligner（定位器）具体是指什么
I-SPY Context-Driven Conditional Instruction Prefetching with Coalescing
不正经的kimol君: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指点！
Meltdown Reading Kernel Memory from User Space
DEEPBLUEEEEE: 您好，请问rdtscp.h是什么内容呢
Sniper中cache实现
yi_1973: 您好，想请教一下sniper可以输出LL3 miss的访存序列么？我看到有文章说是用sniper输出了访问trace，但是看了下sniper的配置好像并没有实现这项功能，是不是需要自己修改代码来输出呢，谢谢！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。