
Intel架构优化手册
文章平均质量分 90
wuhui_gdnt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
64-ia-32架构优化手册(1)
第二章.Intel®64与IA-32处理器架构本章给出了当前Intel 64与IA-32处理器(基于Intel®微架构Skylate、Intel®微架构Broadwell、Intel®微架构Haswell、Intel®微架构IvyBridge、Intel®微架构SandyBridge的处理器,基于IntelCore微架构、增强IntelCore微架构、Intel®微架构Nehalem的处理器)翻译 2017-03-10 11:21:29 · 2205 阅读 · 0 评论 -
64-ia-32架构优化手册(16)
3.4.2.4. 优化循环流检测器(LSD)在Intel Core微架构中,满足以下准则的循环由LSD检测,并从指令队列重播(replay)来供给解码器。必须不超过4个16字节的取指。 必须不超过18条指令。 可以包含不超过4被采用的分支,并且它们不能是RET。 通常应该具有超过64个迭代。在Intel微架构Nehalem中,这样改进循环流寄存器:在指令已解码队列(IDQ,参考...翻译 2018-08-24 11:44:03 · 484 阅读 · 0 评论 -
64-ia-32架构优化手册(15)
3.4.2. 取指与解码优化Intel Core微架构提供了几个机制来增加前端吞吐量。利用这些特性的技术在下面讨论。3.4.2.1. 对微融合的优化工作在一个寄存器及一个内存操作数上的一条指令解码得到的微操作比对应寄存器-寄存器版本要多。使用寄存器-寄存器版本替换前者指令等效的工作通常要求一个2条指令的序列。这个序列很可能导致取指带宽的降低。Assembly/Compiler编程规...翻译 2018-08-03 11:27:19 · 431 阅读 · 0 评论 -
64-ia-32架构优化手册(14)
3.4. 优化前端优化前端包括两个方面:· 维持对执行引擎稳定的微操作供应——误预测分支会干扰微操作流,或导致执行引擎在非构建代码路径(non-architectedcode path)中的微操作流上浪费执行资源。大多数这方面的调整集中在分支预测单元。常见的技术在3.4.1节“分支预测优化”中讨论。· 供应微操作流尽可能利用执行带宽与回收带宽——对于IntelCore微...翻译 2018-03-02 11:42:50 · 469 阅读 · 0 评论 -
64-ia-32架构优化手册(12)
2.9. SIMD技术以及应用程序级扩展的总结SIMD浮点指令完全支持二进制浮点算术的IEEE标准754。它们可以从所有的IA-32执行模式访问:保护模式,实地址模式,以及虚拟8086模式。SSE,SSE2与MMX技术是架构性的扩展。现有的软件仍将正确运行,在包含这些技术的Intel微处理器上无需改动。在存在包含SIMD技术的应用程序时,现有的软件也将正确运行。SSE与SSE2指令还引翻译 2017-12-29 11:45:46 · 763 阅读 · 0 评论 -
64-ia-32架构优化手册——目录
第一章. 略第二章. Intel(r) 64与IA-32处理器架构 2.1. SKYLATE微架构 2.1.1. 前端 2.1.2. 乱序执行引擎 2.1.3. 缓存与内存子系统 2.2. Haswell微架构 2.2.1. 前端 2.2.2. 乱序引...原创 2017-03-10 11:18:59 · 1677 阅读 · 0 评论 -
64-ia-32架构优化手册(13)
第三章.优化指引总则本章讨论可以提升运行在基于Intel微架构Haswell,IvyBridge,SandyBridge,Westmere,Nehalem,增强IntelCore微架构与IntelCore微架构的处理器上应用程序性能的通用优化技术。这些技术利用了在第2章“Intel®64 and IA-32 ProcessorArchitectures” 中描述的微架构。关注多核处理器,超线程翻译 2018-01-12 11:51:38 · 593 阅读 · 0 评论 -
64-ia-32架构优化手册(11)
2.7. Intel® 64架构Intel 64架构支持IA-32 Intel架构中几乎所有的特性,并扩展了对64位线性地址空间中运行64位OS以及64位应用程序的支持。Intel64架构提供了一个新的工作模式,称为IA-32e模式,并将软件的线性地址空间增加到64位,并支持高达40位的物理地址空间。IA-32e模式包含两个子模式:(1)使一个64位操作系统能运行大多数32位遗留软件的兼容翻译 2017-12-15 11:42:52 · 560 阅读 · 0 评论 -
64-ia-32架构优化手册(10)
2.6. Intel®超线程技术 通过在一个物理处理器内或一个物理处理器封装内的每个处理器核内提供多个逻辑处理器,Intel®超线程技术(HT技术)使得软件可以利用任务级或线程级并行性。在其在IntelXeon处理器的第一次实现中,超线程技术使单个物理寄存器(或一个处理器核)看起来有两个或多个逻辑处理器。基于KnightsLanding微架构的IntelXeon Phi处理器在每个处理器核中支翻译 2017-11-23 11:43:16 · 482 阅读 · 0 评论 -
64-ia-32架构优化手册(9)
2.5.5.读写操作的增强Intel微架构Nehalem的内存簇提供了以下增强以加速内存操作:· 每周期一个128比特读与一个128比特写操作的峰值发布速率。· 读写操作的更深缓冲:48个读缓冲,32个写缓冲以及10个填充缓冲。· 快速非对齐内存访问,以及内存对齐危险(memory alignmenthazard)的强健处理。·翻译 2017-11-03 11:54:40 · 416 阅读 · 0 评论 -
64-ia-32架构优化手册(8)
2.5. Intel® 微架构NehalemIntel微架构Nehalem对IntelCore i7处理器以及IntelXeon处理器3400,5500与7500系列的许多创新性的特性提供了基础。它构建在45nm增强IntelCore微架构的成功基础上,并提供下列特性改进:· 增强的处理器核- 改进分支预测以及从误预测恢复。- 增强循环流化以改进前端性能并降低功耗翻译 2017-09-29 11:44:51 · 532 阅读 · 0 评论 -
64-ia-32架构优化手册(7)
2.4.5.Intel® Advanced Smart CacheIntel Core微架构为一块芯片上的两个处理器核优化了若干特性。这两个核共享一个第二级缓存以及一个总线接口单元,统称为IntelAdvanced Smart Cache。本节描述Intel Advanced Smart Cache的组件。图2-9显示了IntelAdvanced Smart Cache架构。图2-翻译 2017-09-08 11:51:05 · 455 阅读 · 0 评论 -
64-ia-32架构优化手册(6)
2.4.3.执行核Intel Core微架构的执行核是超标量(superscalar)的,可以乱序处理指令。当一个依赖链导致机器等待一个资源(比如第二级数据缓存行)时,执行核执行其他指令。这增加了每周期被执行指令的总体速率(IPC)。执行核包含以下3个主要部件:· 重命名器(Renamer)——将微操作从前端移到执行核。架构寄存器被重命名器为微架构寄存器。重命名器消除了称翻译 2017-08-25 11:38:45 · 689 阅读 · 0 评论 -
64-ia-32架构优化手册(5)
2.4. Intel® CORETM微架构与增强的Intel® CORETM微架构Intel Core微架构引入以下特性,使得单线程以及多线程工作负荷都具有高性能与高电源效率:· Intel® Wide Dynamic Execution使得每个处理器核能够每周期以高带宽获取、分发、执行并回收最多4条指令。这些特性包括:- 14级高效流水线。- 3个算术逻辑单元。原创 2017-08-18 12:25:48 · 625 阅读 · 0 评论 -
64-ia-32架构优化手册(4)
2.3. INTEL®微架构Sandy BridgeIntel®微架构Sandy Bridge构建在Intel®CoreTM微架构与Intel微架构Nehalem成功的基础上。它提供了创新性的特性:· Intel先进向量扩展(Intel Advanced Vector Extension,AVX)- 对128比特Intel流SIMD扩展(IntelStreaming S翻译 2017-07-14 11:52:00 · 1237 阅读 · 0 评论 -
64-ia-32架构优化手册(2)
2.2. Haswell微架构Haswell微架构构建在SandyBridge与IvyBridge微架构的成功之上。Haswell微架构的基本流水线功能描述在图2-2中。总之,在2.2.1-2.2.4节描述的大多数特性也适用于Broadwell微架构。Broadwell微架构的增强汇总在2.2.6节。图2-2. Haswell微架构的CPU核心流水线功能Haswell微翻译 2017-03-17 11:42:51 · 910 阅读 · 0 评论 -
64-ia-32架构优化手册(3)
2.2.5.Haswell-E微架构基于Haswell-E微架构的Intel处理器,如在Haswell微架构中描述的那样,由相同的处理器核组成,但提供更先进的非计算内核与集成I/O功能。基于Haswell-E微架构的处理器支持有多个插槽的平台。Haswell-E微架构支持用于可扩展与高性能的多用途处理器架构及平台配置。由Haswell-E微架构的非计算内核及集成I/O子系统提供的某些功能包翻译 2017-04-07 11:50:32 · 817 阅读 · 0 评论 -
64-ia-32架构优化手册(17)
3.5. 优化执行核在最近一代微架构中,超标量、乱序执行核包含可以并行执行多个微操作的多个执行硬件资源。这些资源通常确保微操作能高效执行并以固定的时延前进。使用可用并行性的一般准则是:遵循规则(参考3.4节)来最大化可用的解码带宽以及前端吞吐率。这些规则包括优先单微操作指令,利用微融合、栈指针追踪器与宏融合。 最大化重命名带宽。指引在本节中讨论,包括正确处理部分寄存器(partial r...翻译 2019-08-30 11:36:41 · 498 阅读 · 0 评论