C++ AMP: Hello C++ AMP!

最新推荐文章于 2024-08-31 00:15:00 发布

Augusdi

最新推荐文章于 2024-08-31 00:15:00 发布

阅读量1.7k

点赞数

分类专栏： C++ AMP

C++ AMP 专栏收录该内容

75 篇文章

订阅专栏

介绍C++AMP，微软推出的GPU并行计算API，适用于Windows平台，支持DX11的显卡。本文通过一个矩阵乘法示例展示C++AMP的使用方法，并解释其核心概念如index、extent和grid。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

C++ AMP是微软提供的一套利用GPU并行计算的API。GPU运算不是新概念，用GPU运算比较有名的已有NVIDIA的CUDA，AMD的stream。同时对于OpenCL这个标准大家也一定没见过也听说(AMP同样与近日放出了开放标准)。

导读:C++ AMP是微软提供的一套利用GPU并行计算的API. GPU运算不是新概念,用GPU运算比较有名的已有NVIDIA的CUDA,AMD的stream. 同时对于OpenCL这个标准大家也一定没见过也听说(AMP同样与近日放出了开放标准).但是至少目前比较成气候的CUDA,他只能用在N卡上，归根结底是由于CUDA用到N家的驱动，所以A卡不能用。那么OpenCL呢？很多大厂也都有自己独特的变种，所以还不能说真正的一次编译，全平台运行。而AMP就利用到了得天独厚的平台优势，假如你用windows，用AMP是不二之选。当然有个前提，天下没有免费的午餐，您的显卡要支持DX11才行。

说了这么多，让我们看看AMP什么样子吧，下面是段类似于Hello world的AMP 代码片段：

#include <iostream>
#include <amp.h>

 void MatrixMultiplySimple(std::vector<float>& vC,
         const std::vector<float>& vA,
         const std::vector<float>& vB, int M, int N, int W)
{
  concurrency::array_view<const float,2> a(M, W, vA);
  concurrency::array_view<const float,2> b(W, N, vB);
  concurrency::array_view<float,2> c(M, N, vC); c.discard_data();
  concurrency::parallel_for_each(c.extent,
  [=](concurrency::index<2> idx) restrict(amp) {
    int row = idx[0]; int col = idx[1];
    float sum = 0.0f;
    for(int i = 0; i < W; i++)
      sum += a(row, i) * b(i, col);
    c[idx] = sum;
  });
}

int main()
{
    std::vector<float> vec_rslt(9);
    std::vector<float> vec_A;
    std::vector<float> vec_B;

    vec_A.push_back(1.0f);vec_A.push_back(0.0f);vec_A.push_back(0.0f);
    vec_A.push_back(0.0f);vec_A.push_back(1.0f);vec_A.push_back(0.0f);
    vec_A.push_back(0.0f);vec_A.push_back(0.0f);vec_A.push_back(1.0f);

    vec_B.push_back(11.0f);vec_B.push_back(21.0f);vec_B.push_back(31.0f);
    vec_B.push_back(12.0f);vec_B.push_back(22.0f);vec_B.push_back(32.0f);
    vec_B.push_back(13.0f);vec_B.push_back(23.0f);vec_B.push_back(33.0f);

    MatrixMultiplySimple(vec_rslt, vec_A, vec_B, 3,3,3);

    std::cout<<vec_rslt[0]<<"|"<<vec_rslt[1]<<"|"<<vec_rslt[2]<<std::endl;
    std::cout<<vec_rslt[3]<<"|"<<vec_rslt[4]<<"|"<<vec_rslt[5]<<std::endl;
    std::cout<<vec_rslt[6]<<"|"<<vec_rslt[7]<<"|"<<vec_rslt[8]<<std::endl;

    return 0;
}

如果你已经装上了vs11的beta，那么ctrl+c/ctrl+v赶紧体验下吧：）

好吧，在这个C++十分激进的年代（近期的c++11和这个AMP，喜欢研究的童鞋又可以虐待自己的脑细胞了），上面代码肯定让你有不少迷糊的地方，下面我根据个人经验跟大家分析下，分析的不好，不要扔鞋哦。

首先看line2，用API，一定要包含头文件，我们的AMP十分为大家着想，只需要这么简单一个头文件就行了。用过DX的童鞋一定还记得那include无尽的dxxxx.h和dxxxx.lib.

接着line4 -> line19是比较核心的地方, 这个是我们这个矩阵运算的精髓.8,9,10三个类型定义,我们暂且不管,接着往下看,一个