CSAPP第五章的一些小结

最新推荐文章于 2022-06-19 07:42:54 发布

WASY233

最新推荐文章于 2022-06-19 07:42:54 发布

阅读量371

点赞数

文章标签： c语言

本文链接：https://blog.youkuaiyun.com/lxy580/article/details/124182566

版权

本文探讨了优化计算性能的几种方法，包括代码移动以减少过程调用，消除多余内存引用，简单及多路循环展开来降低无关开销，并通过重新结合和改变运算顺序实现并行操作。然而，要注意过度的循环展开可能导致CPE回升，因为变量可能需要存储在堆栈中，增加内存引用。这些策略旨在最大化计算单元的容量和吞吐量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一些重要名词：（这里的所有时间、周期数都指的的是时钟周期）

CPE：每元素执行所需的周期数。

延迟：完成运算所需要的总时间。

发射时间：两个连续的同类型运算之间需要的最小时钟周期。

容量：能够执行该运算的功能单元数量。

最大吞吐量：发射时间的倒数。

性能提高的方法：

1、代码移动，减少过程调用

2、消除多余内存引用

3、简单循环展开，减少无关开销

4、多路并行循环展开，并行操作，使CPE接近吞吐界限

5、重新结合并换，改变合并顺序，使操作并行

P.S. 多路并行循环展开超过寄存器数量，CPE回升，因为超过的变量放入堆栈中，内存引用增加。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WASY233

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

《深入理解计算机系统/CSAPP》第五章 优化程序性能

qq_27727147的博客

08-17

1947

文章目录第5章优化程序性能5.1 优化编译器的能力和局限性5.2 表示程序性能5.3 程序示例5.4 消除循环的低效率5.5 减少过程调用5.6 消除不必要的内存引用5.7 理解现代处理器5.7.1 整体操作5.7.2 功能单元的性能5.7.3 处理操作的抽象类型5.8 循环展开5.9 提高并行性5.10 优化合并代码的结果小结5.11 一些限制因素5.12 理解内存性能5.12.1 加载的性能5.12.2 存储的性能5.13 应用：性能提高的技术5.14 确认和消除性能瓶颈第5章优化程序性能编写

CSAPP:第9章虚拟内存

椰子奶糖的博客

02-13

1733

CSAPP:第9章虚拟内存文章目录CSAPP:第9章虚拟内存9.1 物理和虚拟寻址9.2 地址空间9.3 虚拟内存作为缓存的工具9.3.1 DRAM缓存的组织结构9.3.2 页表9.3.3 页命中9.3.4 缺页9.3.5 分配页面9.3.6 又是局部性解救了我们9.4 虚拟内存作为缓存管理的工具9.5 虚拟内存作为内存保护的工具9.6 地址翻译9.6.1 结合高速缓存和虚拟缓存9.6.2 利用TLB加速地址翻译9.6.3 多级页表9.6.4 总和：端到端的地址翻译9.7 案例研究：Intel Cor

参与评论您还未登录，请先登录后发表或查看评论

CSAPP第五章笔记

qq_34489443的博客

06-21

457

1.在用linux编译时可以是在gcc或者g++后面加上参数-o1或者-o2来让程序自动优化，小程序可以大大提高运行效率。 2.循环次数尽量少，可以提高程序速度，比如是否可以一次循环处理两次循环的任务。 3.尽量减少函数的调用，第二种程序效果更好，因为vec_length只调用了一次。 3.在循环时更改值，最好用变量，减少用指针,以下面这个程序解释： int test1(...

CSAPP第五章小结

cxzq2010的专栏

12-17

1095

第五章小节第五章中，主要讲各种优化技术，首先通过引入CPE的概念来量化各种优化方法得到的性能，从而给于我们更强的说服力。第二，作者指出优化的地方，什么地方应该优化，就是关键代码中的少数内部循环部分，这些部分耗用的时间通常是值得关注的。两种优化技巧作者举例说明了各种编码技巧对性能的提升，尤其印象深刻的，减少重复过程的调用和减少对存储器中的重复引用，可以获得非常不错的改善，比如int i; int *r

CSAPP第五章：优化程序性

yunan_wind的专栏

03-03

1094

程序的目标：正确性和性能如何编写高效的程序：选择合适的数据结构和算法。编译器能够有效优化。针对大量运算，并行计算。编译器的局限性：无法判断指针（例如两个指针如果指向同一个地方会出现很多莫名的bug，必须检查指针）。程序性能的表示：CPE。例子： 1.消除循环的低效率：例如for(int i=0;i好处是不需要每一次循环都调用函数。（再例如strle

计算机系统课程笔记总结 CSAPP第五章 优化程序性能（5.1-5.14）

Zhuoning Guo's Blog

02-09

4598

GitHub计算机系统CSAPP课程资源计算机系统课程笔记总结 CSAPP第二章信息的表示和处理（2.1-2.2）计算机系统课程笔记总结 CSAPP第二章信息的表示和处理（2.3-2.4）计算机系统课程笔记总结 CSAPP第三章程序的机器级表示（3.2-3.4）计算机系统课程笔记总结 CSAPP第三章程序的机器级表示（3.5-3.7）计算机系统课程笔记总结 ...

CSAPP:第5章优化程序性能

椰子奶糖的博客

02-01

1782

CSAPP:第5章优化程序性能文章目录CSAPP:第5章优化程序性能5.1 优化编译器的能力和局限性5.2 表示程序性能5.3 程序示例5.4 消除循环的低效率5.5 减少过程调用5.6 消除不必要的内存引用5.7 理解现代处理器5.7.1 整体操作5.7.2 功能单元的性能5.7.3 处理器操作的抽象模型从机器级代码到数据流图5.8 循环展开5.9 提高并行性5.9.1 多个累积变量5.9.2 重新结合变换5.10 优化合并代码的结果小结5.11 一些限制因素5.11.1 寄存器溢出5.11.2 分

csapp3e 第五章 优化程序性能

OneGoal的博客

07-18

702

前言高效程序：1. 适当的算法和数据结构。1. 将源代码编码成能够被编译器优化成高效可执行代码（消除连续的函数调用，消除不必要的内存引用）。3, 将运算量特别大的计算任务分成多个部分，这些部分可在多核和多处理器的某种组合上并行计算（第12章）（展开循环，多个累计变量，重新结合，条件转移）。 5.1优化编译器的能力和局限性指针与指针操作，函数调用一般很少优化。因...

北邮CSAPP第一章

私のBookShelf

12-17

345

从helloworld开始了解计算机 helloworld的编译历程源程序：比特序列。8个byte->字节。所有的计算机信息->一串byte构成区分不同数据对象的唯一方法：读到这些数据对象时的上下文。上下文：它是一个状态，包含了能使程序运行的所有参数、变量数字的机器表示形式是对真值的有限近似值。 C语言程序->一系列低级机器语言指令->可执行目标程序编译系统：预处理器，编译器，汇编器，链接器 C语言源程序->预处理->编译器（汇编程序）->汇编器（可

CSAPP-第5章优化程序性能

逐梦

01-27

283

第五章

ABeLong的博客

03-16

179

第五章循环结构程序设计例5.1求1+2+3+4+···+100。例5.2用do···while语句求1+2+3+···+100.例5.3while和do···while循环的比较。例5.4在全系1000名学生中举行慈善募捐，当总数达到10万元时就结束，统计此时捐款的人数以及平均每人捐款的数目。例5.5要求输出100~200的不能被三整除的数。例5.6输出一下4×5的矩阵。 ...

CSAPP 第五章-优化程序性能

bilililala的博客

06-30

454

step 1. 消除不必要的工作 step 2. 利用指令级并行能力，同时执行多条指令 5.1 优化编译器的能力和局限性大多数编译器向用户提供了一些对它们所使用的优化的控制 GCC中，-Og是让GCC使用一组基本的优化，-O1|-O2|-O3使用更大量的优化编译器必须很小心的对程序只使用安全的优化 void twiddle1(long *xp, long *yp){ *xp += *yp; *xp += *yp; } void twiddle2(long *xp, long *yp){..

《CSAPP》（第3版）答案（第五章）

最新发布

01-05

### 关键技术和方法概述 #### 优化编译器的能力和局限性为了使程序达到最佳性能，理解编译器如何工作及其能力边界至关重要。编译器可以自动完成许多常见的优化措施，比如常量折叠、公共子表达式的消除以及无用代码删除等。然而，在面对复杂的控制结构或涉及指针运算的情况下，其效果可能有限[^1]。 #### 表示程序性能衡量软件效率通常依赖于时间复杂度分析与实际运行测试相结合的方式。前者通过算法理论来预估执行速度；后者则借助工具记录具体耗时情况，从而找出潜在瓶颈所在之处。 #### 消除循环中的低效部分针对频繁迭代的部分采取特别处理手段是提升整体表现的有效途径之一。这包括但不限于减少每次重复计算相同值所带来的开销、调整数组访问模式以利于缓存命中率提高等方面的工作。 ```c // 原始版本可能存在多次相同的计算 for (int i = 0; i < n; ++i) { result[i] = a * b + c; } // 改进后的版本提前进行了乘法运算 double ab = a * b; for (int i = 0; i < n; ++i) { result[i] = ab + c; } ``` #### 减少过程调用次数函数调用虽然有助于增强代码可读性和重用性，但在某些场景下也会引入额外负担。对于那些仅用于局部逻辑实现的小型辅助功能来说，考虑将其内联展开可能是更好的选择——当然这也取决于具体情况而定[^4]。 #### 避免不必要内存引用当涉及到大量数据交换时，应当尽可能降低对外部资源（如磁盘文件）的请求频率，并合理规划内部缓冲区大小以便更好地适应硬件特性。此外，还应注意防止因不当索引而导致越界访问等问题的发生。 #### 理解现代处理器架构特点深入研究CPU内部运作机制可以帮助开发者充分利用多核并行优势、指令流水线设计原理等相关概念来进行针对性改进。例如利用SIMD扩展加速向量化操作就是一种常见做法。 #### 循环展开技术应用实例适当增加循环体内语句数量可以在一定程度上缓解分支预测失败带来的负面影响，进而加快整个序列遍历的速度。不过需要注意的是过度使用该策略可能会造成寄存器溢出风险增大以及其他不利后果。 ```cpp // 单次循环 for(int i=0;i<n;++i){ sum+=arr[i]; } // 展开四倍后 for(int i=0;i<n-3;i+=4){ sum += arr[i]+arr[i+1]+arr[i+2]+arr[i+3]; } if(n%4!=0){ // 处理剩余项 for(;i<n;++i){ sum+=arr[i]; } } ``` #### 提升并行处理水平的方法探讨除了简单地将任务分配给不同核心外，还可以探索更多高级别的协作方式，像OpenMP这样的库提供了便捷的操作接口让用户轻松定义共享变量范围内的同步关系。另外，也可以尝试采用Amdahl定律指导下的混合编程模型来平衡串行与并发之间的比例关系。