
高性能计算
文章平均质量分 86
pcdack
这个作者很懒,什么都没留下…
展开
-
英特尔oneAPI—DPCT 移植 CUDA 程序方法、示例及注意事项
oneAPI 提供了 DPCT 工具来移植 CUDA 程序,官方称可以移植 95 %的 CUDA 程序。实际体验下来,在自动生成的代码有一些小的语法上错误,需要做一些修正才可正常使用。暂时感觉 AMD 的 hipify 转出来的程序需要修改的内容更少。可以通过以下途径获取和安装 DPCT:安装 Intel OneAPI Base Toolkit 。单独安装 DPCT。DPCT 的使用方式移植单个 CUDA 文件单个文件时,对 CUDA 程序进行迁移十分的简单,只需要输入下面的命令行即可完成迁移原创 2022-04-23 18:49:26 · 2333 阅读 · 3 评论 -
函数调用的代价与优化
译者注:本文原始链接为https://johnysswlab.com/make-your-programs-run-faster-avoid-function-calls/,翻译获得作者同意。这是程序底层优化的第二篇文章,第一篇文章缓存友好程序设计指南。现代软件设计像层(layer),抽象(abstractions)和接口(interfaces)。 这些概念被引入到编程中的初衷是好的,因为它们允许开发者编写更容易理解和维护的软件。 在编译器的世界里,所有这些结构都转化为对函数的调用:许多小函数相互调.翻译 2022-03-22 20:12:29 · 562 阅读 · 0 评论 -
编写缓存友好型程序技巧
通过使用数据缓存加速程序译者注:本文原始链接为<Make your programs run faster by better using the data cache>,翻译获得作者同意。本文中的一些策略只对大量数据处理有优化的可能,小量数据很可能带来性能下降。通过使用数据缓存加速程序开发者时刻面临着如何加速程序,其中最明显的是通过花哨的算法来降低复杂度。比如说将O(n2)O(n^2)O(n2) 复杂度的算法,使用 O(nlogn)O(nlogn)O(nlogn) 替换等等。这是很好翻译 2022-03-20 13:37:39 · 784 阅读 · 1 评论 -
手把手建立Roofline模型(CPU)
Roofline模型原理Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度(Operational Intensity)下能够达到的理论计算上限 。论文和基础理论和应用 Roofline Model与深度学习模型的性能分析 。本文旨在教授如何根据当前开发环境机器建立该模型,并简单的介绍如何根据算法计算OI(计算强度)。需要准备的硬件参数对于CPU而言,我们需要一下参数:频率内存带宽(double)Avx512 UnitFmaIntel® X原创 2022-03-19 10:59:20 · 2825 阅读 · 1 评论 -
oneAPI DPC++学习资料和平台
DPC++ 学习资料与平台原创 2022-03-17 21:38:05 · 1302 阅读 · 0 评论 -
编译DPC++ Compiler(支持Nvidia显卡)
解决编译DPC++ compiler时产生的问题。原创 2022-03-17 19:56:21 · 1754 阅读 · 0 评论