68、热感知 3D 多核处理器的自适应动态频率缩放技术解析

热感知 3D 多核处理器的自适应动态频率缩放技术解析

1 3D 集成技术的优势与挑战

3D 集成技术具有减少线距、延迟和功耗的潜力,与 2D 设计技术相比,它能带来显著的功耗和性能优势,有望改变处理器设计的限制。然而,该技术也带来了一些问题,其中热问题是 3D 微处理器面临的关键问题之一。垂直堆叠的硅片会导致功率密度迅速增加,进而增加冷却成本,对可靠性产生负面影响并导致性能下降。因此,在设计未来的 3D 多核处理器时,需要更有效的冷却技术。

2 动态热管理技术

对于传统的 2D 芯片,当芯片温度超过冷却解决方案支持的热极限时,动态热管理(DTM)技术已被广泛用于解决热问题。DTM 技术主要分为两类:
- 基于硬件的技术 :如动态频率缩放(DFS)、动态电压缩放(DVS)和时钟门控。这些技术在管理温度方面更积极有效,但与基于软件的技术相比,会产生更多的执行时间开销。
- 基于软件的技术 :如能量感知进程调度和操作系统级任务调度。

与 2D 多核处理器相比,3D 多核处理器的热问题预计会更严重,因此需要更有效的 DTM 技术。DFS 技术被认为是 2D 多核处理器中最有效的 DTM 技术之一。接下来将分析采用传统 DFS 技术的 3D 多核处理器在不同应用特征、冷却特性和频率水平下的详细热行为,并提出一种自适应 DFS 技术,通过根据每个核心的冷却效率分配不同的 DFS 级别来降低 3D 多核处理器的峰值温度。

3 自适应动态频率缩放技术

在使用传统 DFS 技术的多核处理器中,由于其目标是所有核心冷却效率相当的 2D 多核处理器,因此应用于各核心的 DFS 级别没有差异。但在 3D 多核处理器中,核心的冷却效率会因垂直位置的不同而有显著差异。基于冷却效率更好(离散热器更近)的核心可以比冷却效率较差的核心以更高的频率运行这一事实,提出了自适应 DFS 技术,该技术会根据核心的冷却效率为其分配不同的 DFS 级别。

以下是传统 DFS 和自适应 DFS 的 DFS 级别对比表:
| | Level - 1 | Level - 2 | Level - 3 | Level - 4 |
| — | — | — | — | — |
| core - 0 (传统 DFS) | 1GHz | 2GHz | 3GHz | 4GHz |
| core - 1 (传统 DFS) | 1GHz | 2GHz | 3GHz | 4GHz |
| core - 0 (自适应 DFS) | 0.5GHz | 1.5GHz | 2.5GHz | 3.5GHz |
| core - 1 (自适应 DFS) | 1.5GHz | 2.5GHz | 3.5GHz | 4.5GHz |

自适应 DFS 技术会为 3D 多核处理器中的每个核心分配不同的 DFS 级别,冷却效率更好的核心会被分配更高的基线频率,而冷却效率较差的核心则会被分配较低的基线频率。例如,在一个 3D 双核处理器中,由于 core - 1 离散热器更近,其冷却效率比 core - 0 更好。基于传统 DFS 有四个 DFS 级别(1GHz、2GHz、3GHz、4GHz)的假设,自适应 DFS 技术会为 core - 1 分配更高的四个 DFS 级别(1.5GHz、2.5GHz、3.5GHz、4.5GHz),为了使频率总和相同,会为 core - 0 分配较低的四个 DFS 级别(0.5GHz、1.5GHz、2.5GHz、3.5GHz)。自适应 DFS 中核心的基线频率与传统 DFS 相比,冷却效率较好的核心基线频率更高,冷却效率较差的核心基线频率更低,且两者的 DFS 级别频率差距相同。预计该自适应 DFS 技术能降低 3D 多核处理器的峰值温度,因为它考虑了每个核心根据离散热器距离不同而产生的冷却效率差异。

4 实验
4.1 实验方法
  • 模拟核心的基线处理器 :采用不带 L2 缓存的 Alpha21264(EV6),并将其扩展为双核配置进行多核模拟。
  • 系统模拟器 :使用 SimpleScalar,它能提供详细的处理器周期级建模。
  • 功率跟踪工具 :使用 Wattch 来获取详细的功率跟踪信息。
  • 应用程序选择 :从 SPEC CPU2000 基准测试中选择了两个应用程序(mcf 和 gcc),因为这两个应用程序在处理器峰值温度方面表现出显著差异。
  • 热建模工具 :使用 HotSpot 版本 5.0,硅层和热界面材料的建模参数如下表所示:
    | 参数 | 值 | TIM - 0 | CORE - 0 | TIM - 1 | CORE - 1 |
    | — | — | — | — | — | — |
    | 比热容 (J/m³K) | | 4.00e6 | 1.75e6 | 4.00e6 | 1.75e6 |
    | 厚度 (m) | | 2.00e - 5 | 1.50e - 4 | 2.00e - 5 | 1.50e - 4 |
    | 电阻率 (mK/W) | | 0.25 | 0.01 | 0.25 | 0.01 |

在实验中,DFS 技术会持续启用,而不是仅在热紧急情况下响应。传统 DFS 技术采用四个级别(1GHz、2GHz、3GHz 和 4GHz),并且所有模拟中两个核心的频率总和为 5GHz。

4.2 DFS 对 3D 多核处理器的热影响

为了分析 DFS 级别对热的影响,在两个核心上运行相同的应用程序(mcf),仅改变 DFS 级别,模拟了以下四种方案:1GHz/4GHz、2GHz/3GHz、3GHz/2GHz、4GHz/1GHz(斜杠分隔两个核心的频率,前者代表离散热器远的 core - 0 的频率,后者代表离散热器近的 core - 1 的频率)。

不同方案的峰值温度如下:
- 1GHz/4GHz:98.09°C
- 2GHz/3GHz:97.17°C
- 3GHz/2GHz:105.59°C
- 4GHz/1GHz:123.1°C

可以看出,相同的频率值在交换两个核心的频率后会产生完全不同的热分布,因为 3D 多核处理器中每个核心的冷却效率不可比。一般来说,离散热器近的核心冷却效率更好,因此为了降低核心中热点的温度,冷却效率相对较好的核心应该以比冷却效率相对较差的核心更高的频率运行。

4.3 工作负载分布对 3D 多核处理器的热影响

为了确定 3D 多核处理器根据工作负载分布的热模式,选择了 mcf 和 gcc 两个应用程序,因为它们在处理器上产生的热影响差异很大。在 2D 单核处理器中,mcf 显示出非常高的峰值温度(123.5°C),而 gcc 的峰值温度较低(89.9°C)。

在实验中,两个不同的应用程序在两个核心上以四个 DFS 级别运行,产生了八种不同的方案:
- mcf1GHz/gcc4GHz
- mcf2GHz/gcc3GHz
- mcf3GHz/gcc2GHz
- mcf4GHz/gcc1GHz
- gcc1GHz/mcf4GHz
- gcc2GHz/mcf3GHz
- gcc3GHz/mcf1GHz
- gcc4GHz/mcf1GHz

各方案的峰值温度分别为 93.08°C、94.43°C、104.1°C、122.53°C、97.51°C、94.12°C、100.01°C 和 114.49°C。除了第五种方案(gcc1GHz/mcf4GHz)外,由于 core - 1 离散热器近的位置优势(冷却效率更好),无论工作负载类型如何,core - 1 的温度都比 core - 0 低。对于第四种方案(mcf4GHz/gcc1GHz)和第八种方案(gcc4GHz/mcf1GHz),每个核心的频率相同,但第八种方案的温度低于第四种方案。在第三种和第七种方案中也能看到相同的模式,这反映了将不同工作负载分配给具有不同冷却效率的核心所产生的热影响。因此,为了降低核心的温度,应将相对较重的工作负载分配给冷却效率相对较好的核心。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始实验]):::startend --> B{选择应用程序}:::decision
    B -->|mcf和gcc| C(设置DFS级别):::process
    C --> D(运行不同方案):::process
    D --> E(记录峰值温度):::process
    E --> F(分析热影响):::process
    F --> G([结束实验]):::startend

以上是实验的大致流程,从选择应用程序开始,设置 DFS 级别,运行不同的模拟方案,记录峰值温度,最后进行热影响分析。

4.4 传统 DFS 技术与自适应 DFS 技术在 3D 多核处理器中的对比

在使用传统 DFS 技术的处理器中,应用于每个核心的 DFS 级别是相同的。然而,模拟结果表明,在 3D 多核处理器中,冷却效率更好的核心可以以更高的频率运行,以缓解热问题。因此,提出的自适应 DFS 技术会根据每个核心的冷却效率为其分配不同的 DFS 级别。

对于使用自适应 DFS 技术的双核处理器,冷却效率更好的核心的 DFS 级别为 1.5GHz、2.5GHz、3.5GHz 和 4.5GHz,而冷却效率较差的核心的 DFS 级别为 0.5GHz、1.5GHz、2.5GHz 和 3.5GHz。在模拟中,自适应 DFS 中两个核心的频率总和设置为 5GHz,与传统 DFS 相同。模拟的八种自适应 DFS 技术方案如下:
- mcf0.5GHz/gcc4.5GHz
- mcf1.5GHz/gcc3.5GHz
- mcf2.5GHz/gcc2.5GHz
- mcf3.5GHz/gcc1.5GHz
- gcc0.5GHz/mcf4.5GHz
- gcc1.5GHz/mcf3.5GHz
- gcc2.5GHz/mcf2.5GHz
- gcc3.5GHz/mcf1.5GHz

各方案的峰值温度情况显示,除了第一种方案(mcf0.5GHz/gcc4.5GHz)和第五种方案(gcc0.5GHz/mcf4.5GHz)外,自适应 DFS 的峰值温度低于传统 DFS。自适应 DFS 的目的是降低冷却效率较差的核心的频率,同时提高冷却效率较好的核心的频率。在模拟的双核处理器中,core - 1 的冷却效率更好,core - 0 的冷却效率较差。对于传统 DFS 的第一种方案,core - 1 的峰值温度与 core - 0 相似;对于传统 DFS 的第五种方案,core - 1 的峰值温度高于 core - 0。在自适应 DFS 的第一种和第五种方案中,core - 1 的频率高于传统 DFS,因此这两种方案的峰值温度有所增加。但总体而言,自适应 DFS 的峰值温度平均比传统 DFS 低 5.01°C,特别是在第四种方案(gcc3.5GHz/mcf1.5GHz)中,自适应 DFS 的峰值温度比传统 DFS 低达 10.35°C。

模拟结果证明,根据冷却效率为每个核心分配不同的 DFS 级别可以降低 3D 多核处理器的峰值温度,从而提高可靠性和性能。

5 结论

通过对 3D 多核处理器在不同 DFS 级别和工作负载分布下的热行为进行分析,得出以下结论:
- 离散热器近的核心可以比离散热器远的核心以更高的频率运行,从而在不出现热紧急情况的前提下保持性能。
- 可以将热影响较大的工作负载分配给冷却效率更好的核心,以降低 3D 多核处理器的整体温度。

同时,提出了一种自适应 DFS 技术,该技术通过根据每个核心的冷却效率分配不同的 DFS 级别,来缓解 3D 多核处理器的热问题。模拟结果显示,与传统 DFS 技术相比,该自适应 DFS 技术平均可将 3D 多核处理器的峰值温度降低 5.01°C。因此,该自适应 DFS 技术有望成为降低未来 3D 多核处理器峰值温度的有效解决方案。

以下是对整个研究过程的总结流程图:

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A([开始研究]):::startend --> B(分析 3D 集成技术热问题):::process
    B --> C(研究 DTM 技术):::process
    C --> D(提出自适应 DFS 技术):::process
    D --> E(进行实验):::process
    E --> F(对比传统 DFS 和自适应 DFS):::process
    F --> G(得出结论):::process
    G --> H([结束研究]):::startend

综上所述,自适应 DFS 技术在解决 3D 多核处理器热问题方面具有显著的优势和应用价值。在未来的 3D 多核处理器设计中,可以考虑采用该技术来优化处理器的性能和可靠性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值