Therma：热感知线程迁移优化光互连功耗

原创于 2025-10-25 13:06:53 发布 · 520 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#光互连 # 线程迁移 # 热管理

Therma: 面向纳米光互连的热感知运行时线程迁移

摘要

Therma：一种用于管理纳米光子网络中温度波动的热感知运行时线程迁移机制。纳米光子学是下一代高性能系统最具前景的通信介质候选之一。然而，其底层组件对温度波动非常敏感。这些波动主要源于核心上的温度变化，而核心与纳米光子组件相邻。Therma 通过在线程间迁移线程来最小化这些温度敏感组件上的热波动。评估结果表明，当每个核心执行单个线程时，与基线和忽略互连的线程迁移方案相比，Therma 分别实现了光功率消耗降低 15.4% 和 6.1%。在系统上每个核心运行多个线程时，与现有方案相比，其光功率消耗最多可降低 20.7%。

关键词
N光子互连网络；温度变化

1. 引言

随着多核和众核架构的发展，片上网络中的节点数量持续增加。随着芯片上集成的组件越来越多，这一趋势预计将进一步增长。考虑到纯电网络的局限性，人们已探索了多种新技术。其中，光互连网络是未来众核微处理器最重要的潜在替代方案之一，因其可提供最高的单位面积带宽 [2, 3]。然而，该技术也带来了重大挑战。其中最重要的两个挑战是高功耗和可靠性问题。本文重点解决功耗问题，具体而言，我们针对光器件调谐过程中因硅光器件热敏感性导致的高能耗问题，该热敏感性与硅光器件折射率的空间和时间变化 [8] 相关 4‐7,。

在光子器件中，发射端的环形调制器和接收端的环形解调器需要工作在特定温度。否则，它们将无法在其指定波长下共振，因为硅基光链路中的环形谐振器通常对温度波动非常敏感。在波分复用（WDM）系统中，即使几摄氏度的热变化也会导致环形谐振器在错误波长 [4, 8] 下共振。如果环形谐振器在未分配的波长下共振，则在此新波长上传输的数据将会损坏。因此，必须将谐振器保持在一个较小的温度窗口内，以确保其正常工作。在大多数提出的架构以及带有片上纳米光网络的商用处理器芯片（例如IBM 90纳米处理器芯片 [9]）中，高功率密度的层（例如处理器和内存）直接堆叠在对温度敏感的光网络层组件的上方或下方。将此类高功耗层紧邻硅基纳米光子层放置会导致两者之间显著的热耦合，从而引起光子层中不良的温度变化 [10, 11]。因此，光学元件的温度敏感性是光器件集成到此类三维堆叠器件中的一个关键障碍。

示意图0

图1展示了使用动态电压频率调节来冷却处理器的8核 Niagara的热行为。如图所示，a）核心温度可能变得很高，且b）在运行过程中温度存在较大变化。在3D处理器中，这不仅会影响系统性能，还会导致光子组件上出现不良的热变化。

保证环形谐振器正常工作的最常见方法是调谐。热调谐方案 14通过加热环形谐振器（实现红移，即增加其共振波长）或使用载流子注入（实现蓝移，即减小共振波长）来校正共振波长。这些技术已知会导致高功耗 [4, 10, 14]。例如，在Corona网络中，调谐需要总共~26W的功耗，占该网络总功耗的54% 2。

本文提出了一种名为Therma的新型热感知运行时线程迁移方法论，旨在降低热波动对温度敏感的光子组件（如环形调制解调器）的影响。我们通过保持这些组件的温度一致来平衡整体温度，同时将功耗和性能开销降至最低。具体而言，Therma是一种热管理方法，可在光子多核系统中实现线程在核心之间的迁移，从而形成使整个芯片功耗最小化的配置。Therma根据线程的热历史，将其分配到温度较高或较低的核心上。此外，该系统级环境温度控制机制降低了环形谐振器的最高温度，从而减少了为维持环形谐振器处于恒定温度 [15] 所需的热调谐功耗。尽管Therma线程迁移的优势在直觉上显而易见，但线程迁移的数量应高效管理迁移以保持较低成本。为实现这一目标，Therma利用一种基于核心及其邻近光子组件温度历史的细粒度预测驱动机制，以在核心之间迁移线程。当每个核心执行多个线程时，Therma会选择那些容易增加环形谐振器间波动的线程并进行交换。为了识别此类线程（在核心上运行的线程集合中），Therma使用线程的每周期指令数（IPC）速率。Therma还通过允许在某一时刻迁移多个线程，来管理系统中的负载均衡。

本文的其余部分组织如下。下一节介绍相关工作。第3节介绍了实验设置的细节。第4节描述了Therma方法论。第5节展示了实验结果，第6节提供了总结。

2. 相关工作

已经提出了多种方法来消除环形谐振器 [4‐8, 16] 的谐振频率偏移。其中一些方法 [6, 16] 采用制造后的物理调谐，通过使用紫外光或电子束来调整环形谐振器的折射率。然而，这些技术需要对每个环形谐振器进行调谐，且尚不清楚此类物理调谐是否适用于大规模生产 [5, 7, 14]。如前一节所述，文献中已提出多种修整方案 [4, 5, 7, 10, 14]。Therma与这些硬件技术正交。除了消除环形谐振器的谐振频率偏移外，防止热耦合和减少热点也是需要考虑的重要问题。

已经提出和/或在当前系统中使用了多种硬件技术，例如利用空气/真空腔的热隔离 [17, 18],、微流体嵌入式冷却方法 [18]，以及运行时系统技术，例如动态电压频率调节（DVFS）[13] 和工作负载迁移 19, 20。然而，这些技术并未考虑纳米光子层的温度。在 [21] 中提出了一种热感知作业分配策略，以对齐光链路中环形调制器和滤波器的温度。该方法将硅光子链路中光子器件之间的热梯度降低至小于2.2 C。然而，该方法依赖于使部分核心处于空闲状态。具体而言，线程数量始终少于核心数量，并且该方法不区分各个线程（即，仅区分活跃与空闲的核心）。

与这些技术不同，Therma 综合考虑了硅光器件特性与应用行为，以最低成本优化芯片整体热行为。此外，Therma 可适用于当前的 3D 硅处理器芯片。事实上，据我们所知，Therma 是首个运行时一种旨在管理纳米光子功耗的时间系统管理技术。

3. 实验设置

在本研究中，我们基于集成DSENT [23] 的Graphite 22可扩展应用级架构性能模拟器，对采用22纳米SOI CMOS工艺制造的64核处理器进行建模。每个处理器核心的架构类似于Niagara 2 [24] 中的核心。每个核心具有64 KB的一级指令缓存和数据缓存，以及256 KB的二级缓存分区，因此总的共享二级缓存为16兆字节。最大核心频率为4 GHz。我们对一个面积为480 mm²的芯片进行建模，该芯片采用单周期路由器、1周期电光转换和光电转换，以及具有5个周期往返时间的10厘米波导。链路延迟根据经过的波导长度计算得出。我们使用128位碎片。

核心被组织成16个相等的簇。在每个簇中，四个核心通过一个电子路由器连接。共有16个内存控制器，均匀分布在芯片的两条边上。本文使用的纳米光子技术参数基于 [2, 3]。

我们使用ATAC网络拓扑 [25]，该拓扑模拟了基数16的SWMR交叉开关 [2, 3]。环调谐模型通过加热或电流注入 [14, 26] 迫使环形谐振器保持在其指定的信道中。

示意图1

图2展示了整个系统设计。我们运行来自PARSEC [27] 套件的多线程基准程序。我们从全系统仿真中收集运行时统计信息，并使用 McPAT [28] 计算计算核心、缓存和内存控制器的功耗。我们根据为Niagara 2发布的（缩放后的）功耗数据校准从 McPAT收集的动态功耗数值。我们使用DSENT计算电网络和光网络的功耗。我们使用HotSpot的3D芯片扩展 [29] 对逻辑层位于光子层之上的3D堆叠架构的热特性进行建模，如图 3所示。需要注意的是，我们提出的方法论普遍适用于任何物理布局以及映射到该布局的任何逻辑拓扑。3D硅通孔模型参数基于 [18]。

通过迭代计算动态功耗、相应温度，更新McPAT中的温度水平，然后重新计算功耗（迭代持续进行直到温度不再变化），从而得到总功耗和温度。我们测量每个工作负载执行期间逻辑芯片的最高温度。然后，我们将环形谐振器调谐至目标架构上执行所有基准测试时观测到的光子层达到的所有温度中的最高值。我们还使用HotSpot中的默认封装配置。

系统中的光子部分包括波导和大量环形谐振器调制器。我们考虑了波导块和环形块的热阻率，这些块中材料的电阻率和体积大致与硅的热阻率相同。本文报告的所有热结果均来自稳态分析。本文基于本节提到的配置参数评估了两种替代技术。

基线设计 ：该方法是我们的基线设计，不对环形谐振器之间的温度进行任何迁移处理。该方案的架构和框架与上述提出的方法类似。

HR ：该技术类似于散热运行（HR）[30]，这是一种忽略互连的线程迁移方案。在HR方法中，为了平衡温度，线程从过热的核心迁移到其他可用核心。为此，采用基于性能计数器的信息来确定各个线程的资源强度。更具体地说，当检测到临界温度值时，HR会执行线程迁移。在我们对该技术的实现中，运行在达到临界温度的核心上的线程将与IPC最低的线程进行交换。迁移的阈值温度设定为90 C。

4. Therma

所提出方法的目标是利用线程迁移的优势，以最小化3D光子系统中各层之间的热耦合，并保持纳米光子网络环境温度的稳定性。在本节中，我们将深入探讨Therma方法，并描述该技术的优点和局限性。

4.1 Therma框架

在或 er 以使用 t 在核心之间进行任务迁移，以控制硅光子器件中对温度敏感的部分（例如环形谐振器、调制器/滤波器）周围的温度波动，我们提出了一种细粒度的、基于预测的方法来分析各个组件的温度历史。

Therma 针对 3D 光子系统的特性。在硅基光子片上网络中，环形谐振器的温度会受到邻近核心温度的影响。因此，所提出的策略考虑了核心和环形谐振器的热历史。多个核心和环形谐振器被分组形成一个簇，类似于之前的研究 [3, 25]。

图2展示了 Therma 中使用的一个示例簇。在我们的机制中，线程可以迁移到不同簇中的核心（簇间迁移）。然而，不允许在簇内进行迁移（簇内迁移），因为我们的方法目标是平衡每个簇及其组件的温度。这减少了不必要的迁移次数，从而提高了 Therma 的效率。

在每个簇中，Therma 为每个核心分配一个热指数（下文中描述的αc(i)）。热指数越高，该核心越容易产生HotSpot。因此，该指数将帮助Therma判断某个核心是否需要降温。此外，除了热指数外，我们还考虑分配给每个簇中环形块的一组光电热指数（下文中描述的αb(i)）。与热指数类似，若某个环形块的光电热指数越高，则该环形块对共振变化越敏感。在本研究中，我们力求最小化共振偏移，其可表示为

$$
∆λ = \frac{λ}{n_g} \left( \frac{\partial n_{eff}}{\partial T} \right) ∆T \quad (1)
$$

其中 $ n_{eff} $ 为有效折射率，$ n_g $ 为群折射率，理论共振偏移效率 $ \frac{∆λ}{∆T} $ 为 ≈ 0.078 nm/°C [31]。因此，即使温度发生微小变化，也可能导致谐振点显著偏移。因此，考虑环形谐振器周围温度波动所引起的偏移量非常重要。如果一个环形块的光电热指数较高，则意味着这些环形谐振器容易发生性能变化；因此应降低其周围的温度梯度。使用光电热指数来表示环形块，可以将一组环形谐振器视为一个整体模块，而不是每次单独处理单个环形谐振器。这样，设计者无需为每个环形谐振器单独布设控制信号以调节其温度，否则在可能存在数十万个环形谐振器的情况下将难以实现。

现在我们定义温度历史（TH）为：为了保持在给定的功耗预算内并防止热耦合，各组件必须维持的温度范围。对于核心i和环形块j，我们分别定义THCi和THBj，表示在一个时间段（周期）内核心和环形块的温度历史。类似地，我们为包含核心和环形块的簇定义一个周期时间内的温度历史，用于跟踪平均簇温度，记作Tc e。每个核心i在时段被分配一个值C,i。C,i表示该核心在此时段内接收或发送其正在执行的线程。当某个核心需要降温时，线程迁移将基于各核心的该数值进行。簇中核心C的C+1,i值将在固定的调度间隔更新如下：

$$
C_{c,i+1} = C_{c,i} + Λ_c \quad (2)
$$

其中Λ是核心C所在簇的权重因子。之所以为每个核心考虑簇的权重因子而非核心自身的权重因子，是因为我们需要同时区分相邻核心和环形块的温度（它们彼此相互影响）。当某个簇的平均温度高于我们认为可维持网络稳定性的平衡温度时，我们定义Λ如下：

$$
Λ_c = \sum_{n=0}^{c_c} \sum_{k=0}^{b_c} \frac{∂∂high × ∆THC(n) × ∆THB(k)}{α_c(n) × α_b(k)} \quad (3)
$$

另一方面，如果该簇的平均温度低于平衡温度，则需要按如下方式增加核心的C值：

$$
Λ_c = \sum_{n=0}^{c_c} \sum_{k=0}^{b_c} \frac{∂∂low × ∆THC(n) × ∆THB(k)}{α_c(n) × α_b(k)} \quad (4)
$$

其中∆THC()和∆THB(k)分别是核心和环形块的平衡热历史与当前热历史之差，定义如下：

$$
∆THC(n) = THC(balanced) − THC(n) \quad (5)
$$
$$
∆THB(k) = THB(balanced) − THB(k) \quad (6)
$$

其中 αc(n) 是核心 n 的热指数，αb(k) 是环形块 k 的光热指数。此外，∂∂low 和 ∂∂high 是用于确定簇权重因子变化速率的常数值。在我们的实验中，将 ∂∂high 设为 = 0.05，∂∂low 设为 = 0.5，并使用包含 10个温度值的历史窗口（例如，60毫秒采样率下的 600 毫秒间隔）。在每一步中，将所有核心的值求和并归一化，以获得整个芯片的平均值，从而保持计算的一致性。注意，∂∂ values 和历史窗口长度是针对我们的系统进行调整的，应根据目标系统进行相应修改。此外，c 和 b 分别表示每个簇中的核心数量和环形块数量。

使用公式2，该策略在执行期间更新C,i的值。在每个周期，我们比较该周期内最高和最低的C值。如果它们的差值足够大，则交换线程。具体而言，如果C值的最大差值出现在核心i和核心j之间，则将运行在核心i上的线程进行交换。如果线程在核心j上运行，且 $ C_{t,i} - C_{t,j} > 2 \times \sum |C_t - C_{avg}| $，其中 $ C_{avg} $ 为所有C值的平均值，且 $ \sum |C_t - C_{avg}| $ 表示2us是每个C到Ca g的平均跨度距离的两倍。使用该方程有助于我们平衡核心温度。通过使权重因子与相对于平均值和簇温度的差异成比例地增加或减少，所提出的方法实现了芯片、环形谐振器以及整个簇之间的平衡。具有较高热指数的核心或具有较高光电热指数值的环形块，其温度下降速度将比具有较低指数的核心/环形谐振器更快。这是为了确保由于位置原因更容易产生HotSpot的核心/环形谐振器所承受的工作负载强度低于温度较低的核心/环形谐振器。

我们还通过监控温度历史在运行时设置/更新热指数和光电热指数。应观察足够大的温度历史窗口，以确定核心和环形块的典型特性。平衡温度THC 和THB 是安全操作温度，应设置为低于系统的临界温度阈值。为了确保系统可靠运行，核心需要在最高温度值以下运行，该值通常介于 85°C至110°C之间 [29]。然而，在本文中，为了准确设定 THC 和THB，我们根据每个周期核心和环形谐振器的平均温度动态地在每一步确定这两个值。THB 被设置得足够高，使得环形块的温度永远不会超过该值，并且当其温度较低时会被加热。

如果核心执行多个线程，Therma会稍作修改。假设根据前述的C值选择核心i和核心 j来交换线程（即核心i比核心j更热）。同时，假设有线程和在核心i上运行，线程k和在核心j上运行。如果和k的IPC高于和，我们的方法将在这四个线程中找出最优的两个进行交换，以平衡温度。具体而言，较热核心上IPC最高的线程将与较冷核心上IPC最低的线程进行交换。

4.2 Therma的开销

Therma 会进行偶尔的迁移，这可能会导致性能下降：Therma 在核心之间复制架构状态时会产生延迟开销，以及跨簇传输和未初始化结构（尤其是 L1 缓存未命中）带来的开销。我们必须指出，近年来已有大量关于快速线程迁移的研究 [32, 33]。我们尚未利用此类机制，而是决定调整我们的系统（即迁移频率），使其能够应用于现有系统而无需额外支持。我们的机制与快速线程迁移方法之间的关联是未来研究的一个有趣方向。

4.2.1 延迟成本

图4展示了Therma、基线设计和HR在每个基准测试中的平均运行时间。Therma的平均运行时间基于系统总延迟加上迁移成本计算得出。迁移架构状态所需的时间设定为89.7微秒，这是根据最近的研究得出的一个保守估计值 [34]。此外，由于 L1缓存缺失和TLB缺失引起的可变开销通过仿真进行测量。

如图所示，总体而言，Therma相比基线系统的整体延迟成本平均为1.3%（范围在0.5%到2.8%之间）。造成这一较低成本的原因是迁移频率相对于整体执行时间而言较小。值得一提的是，由于所提出的方法触发了一种细粒度的预测算法，该算法依赖于应用程序过去的温度历史，因此在线程需要在两个核心之间迁移时，其选择过程能够快速执行。

与HR相比，Therma平均提供了4.7%更低的执行时间。这一提升的原因在于Therma为了降低核心的温度变化所需的迁移次数更少。具体而言，与HR机制相比，Therma方法中的迁移次数平均减少了36%。简而言之，Therma中的线程迁移数量少于HR，部分原因在于避免了簇内移动以及不必要的迁移。

4.2.2 迁移对缓存惩罚的影响

一旦线程迁移到新核心，就会出现缓存缺失：Therma中的簇间迁移会导致迁移线程的L1缓存数据丢失。我们利用现有的一致性协议，通过共享L2缓存按需传输迁移线程的数据（类似于 [19] 中的方案）。对于所研究的核心，簇间迁移还包括一级TLB状态的丢失。然而，当一级缓存缺失被处理时，会同时访问位于一级TLB之后的共享L2 TLB，因此不在关键路径上。簇间迁移会导致末级缓存产生额外的缓存流量，并带来功耗影响，我们将在下一节中讨论这一点。

图5展示了八个PARSEC应用程序在Therma、HR和基线设计之间的归一化缓存未命中率（包括L1和L2），结果以基线设计的L1和L2缓存缺失率为基准进行归一化。如图所示，dedup和swaptions应用中的缓存未命中率增长高于其他基准测试。这是因为这两个应用程序的迁移频率最高。这两种基准测试导致更高的功耗，从而引起更高的温度，因此为最小化温度变化而进行的迁移次数也更多。此外，需要注意的是，L2缓存在核心之间共享。因此，如图5所示，与基线架构相比，Therma和HR中的L2缓存缺失率没有显著变化；实际上，在某些应用中，由于访问次数增加，L2缓存缺失率反而有所降低。此外，如本图所示，与HR方法相比，Therma平均实现了5.1%更低的L1缓存缺失率。其原因显而易见：如上所述，我们方法中的迁移次数比HR更少，这将减少缓存惩罚，特别是L1数据丢失，从而降低缓存未命中率。

5. 实验结果

本节在64核系统上评估Therma，同时运行单线程和多线程工作负载。

对于单线程执行，我们使用128位flit大小在64个线程上运行来自 PARSEC的八个基准测试，并且线程数为64。对于多线程执行，我们在系统上运行160个线程。我们将我们的方法与基线设计和HR机制进行比较。

5.1 单线程执行

图6展示了所提出的方法论、基线设计和HR机制下环形谐振器周围的平均温度波动。如图所示，平均而言，Therma将环形谐振器周围的温度波动维持在2.3 °C左右，而基线设计和 HR机制的该波动值分别为10.8 °C和6.5 °C。这使得 Therma实现了功耗的降低：Therma能够保持环形谐振器温度的稳定性，并减少调谐功率以及芯片总功耗。如图所示，由于dedup应用的平均功耗较高，其环形谐振器周围的温度波动在所有应用中最高。另一方面，对于canneal等平均功耗较低的应用，Therma将环形谐振器的温度波动控制在2 °C以下，从而使环形谐振器保持稳定，进而减少用于调谐其谐振点所需的功率。总体而言，与基线设计相比，Therma将温度波动降低了近5倍，与HR机制相比则降低了近3倍。值得注意的是，尽管Therma与HR在环形谐振器温度变化方面存在显著差异，但核心温度变化相近：Therma的处理器晶粒温度变化平均为6.8 °C，HR为7.5 °C。这表明，在线程迁移过程中考虑环形谐振器温度可显著提升整体效率。

图7显示了Therma、基线设计和HR机制在不同 PARSEC应用程序下的光功率消耗。结果已归一化至基线方案。在基线设计中，正如我们之前提到的，环形谐振器周围的温度波动导致环形谐振器偏离其谐振点，因此需要额外的功耗来将其校正回位。与所提出的方法论相比，基线设计和HR机制消耗更多的光功率。具体而言，相较于基线设计和HR机制，Therma分别平均实现了15.4%和6.1%的功耗降低。这一成果的取得是因为我们在不同簇的高功耗核心之间提供了线程移动。在每个簇内平衡核心之间的温度并最小化波动。如前所述，HR在进行线程迁移决策时未考虑环形谐振器的温度。因此，环形谐振器周围的温度波动较高（如图6所示），进而导致更高的调谐功耗。如图6所示，Therma在所有应用中的温度梯度均低于2.3 °C。因此，环形谐振器的稳定性较高，若需要校正，则所需的调谐功率更少。dedup应用在基线情况下出现较大波动：如图6所示，温度变化约为18 °C。因此，它需要较高的调谐功率。对于一个3微米环形谐振器，加热和电流注入所需的功耗分别为130微瓦/纳米和240微瓦/纳米 [5‐8]。因此，如图7所示，Therma在dedup应用中最大程度地降低了光功率消耗。

图8展示了Therma与基线设计和HR机制相比的归一化能耗延迟积。如图所示，平均而言，Therma相较于基线设计实现了7.8%的提升。尽管Therma由于线程迁移带来了运行时开销，但其在功耗方面的显著改进主导了这一相对较小的开销，因此Therma显著降低了系统的能耗延迟积。此外，由于Therma在性能和功耗方面均有显著改进（如上所述），其相较于HR机制也实现了12.3%的提升。

5.2 多线程执行

我们还评估了Therma方案在多线程执行中的表现。在此情况下，160个线程在64核上执行。在多线程执行中，每个核心消耗的功耗具有更高的变异性，部分原因是它们执行的线程数量不同。这也改变了系统的热行为。因此，管理环形谐振器之间的热变化变得更加重要。

图9显示，与替代方案相比，Therma能够更高效地处理每个核心上执行的线程。正如预期，当每个核心上有多个线程运行时，环形谐振器周围的温度变化增加。具体而言，基线方案的平均温度变化为16.2 °C，而单线程工作负载下的温度变化为10.8 °C。类似地，HR无法像单线程执行那样在多线程执行期间维持环形谐振器周围的热稳定性：单线程执行为6.5 °C，多线程执行为9.1 °C。然而，结果表明，Therma能够在多线程工作负载下将环形谐振器周围的温度变化平均维持在3.4 °C，相较于单线程执行（2.3 °C）略有增加。Therma与替代方案之间的差异直接源于Therma方法的创新性，该方法适用于每个核心的单线程和多线程工作负载。由于Therma在迁移过程中综合考虑了线程、核心和环形谐振器，线程将被智能地迁移，从而减少温度变化。

图10 展示了 Therma、HR 和基线设计在多线程执行下的光功率消耗。结果表明，与 HR 和基线设计相比，Therma 平均分别降低了 10.3% 和 20.7% 的光功率消耗。

最后，图11 显示了 Therma 相对于 HR 和基线设计的能耗延迟积。如图所示，由于高效的功耗降低、快速的线程迁移以及可忽略的性能开销，Therma 相比其他方案最高实现了 18.7% 的提升。

6. 结论

我们提出了一种新颖的方法论——温控感知线程迁移（Therma），以缓解温度波动对光网络的影响。通过在核心之间进行线程迁移，我们维持了光子温度敏感组件（如环形谐振器调制器/解调器）的温度稳定性。据我们所知，这是首个采用运行时系统管理方案来优化纳米光子网络功耗的工作。Therma 采用基于核心及其邻近光子组件温度历史的细粒度预测驱动机制，以最小代价降低芯片温度。Therma 支持每个核心的单线程和多线程执行。评估结果表明，与现有方案相比，该方法论在温度波动、光功率消耗和能耗延迟积方面均实现了显著降低。