13016.CUDA与C++混合编程demo

1 一个简单的c++与cuda编程示例

1.1 目录结构

在这里插入图片描述
在这里插入图片描述

1.2 CMakeLists.txt

cmake_minimum_required(VERSION 3.8)
project(cuda_demo VERSION 0.1)

# Find CUDA
find_package(CUDA REQUIRED)

# Add executable with source files
CUDA_ADD_EXECUTABLE(cuda_demo
    src/main.cpp
    src/cuda_test.cu
)

target_include_directories(cuda_demo PRIVATE /usr/local/cuda/include)
# Link CUDA libraries
target_link_libraries(cuda_demo ${CUDA_LIBRARIES})

1.3 cuda文件

// cuda_test.cu
#include <iostream>
#include <cuda_runtime.h>

__global__ void add(int *a, int *b, int *c, int N) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < N) {
        c[idx] = a[idx] + b[idx];
    }
}

extern "C" void call_cuda_add(int *a, int *b, int *c, int N) {
    int blockSize = 256;
    int numBlocks = (N + blockSize - 1) / blockSize;

    add<<<numBlocks, blockSize>>>(a, b, c, N);
    cudaDeviceSynchronize();
}

1.4 main.cpp 文件

// main.cpp
#include <iostream>
#include <vector>
#include <cuda_runtime.h>

extern "C" void call_cuda_add(int *a, int *b, int *c, int N);

int main() {
    const int N = 1000;
    std::vector<int> a(N, 1), b(N, 2), c(N);

    int *d_a, *d_b, *d_c;
    cudaMalloc((void**)&d_a, N * sizeof(int));
    cudaMalloc((void**)&d_b, N * sizeof(int));
    cudaMalloc((void**)&d_c, N * sizeof(int));

    cudaMemcpy(d_a, a.data(), N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b.data(), N * sizeof(int), cudaMemcpyHostToDevice);

    call_cuda_add(d_a, d_b, d_c, N);

    cudaMemcpy(c.data(), d_c, N * sizeof(int), cudaMemcpyDeviceToHost);

    for (int i = 0; i < N; ++i) {
        std::cout << "Result[" << i << "]: " << c[i] << std::endl;
    }

    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);

    return 0;
}

1.5 编译执行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

``` cc := g++ name := pro workdir := workspace srcdir := src objdir := objs stdcpp := c++11 cuda_home := /datav/software/anaconda3/lib/python3.9/site-packages/trtpy/trt8cuda112cudnn8 syslib := /datav/software/anaconda3/lib/python3.9/site-packages/trtpy/lib cpp_pkg := /datav/software/anaconda3/lib/python3.9/site-packages/trtpy/cpp-packages cuda_arch := nvcc := $(cuda_home)/bin/nvcc -ccbin=$(cc) # 定义cpp的路径查找和依赖项mk文件 cpp_srcs := $(shell find $(srcdir) -name "*.cpp") cpp_objs := $(cpp_srcs:.cpp=.cpp.o) cpp_objs := $(cpp_objs:$(srcdir)/%=$(objdir)/%) cpp_mk := $(cpp_objs:.cpp.o=.cpp.mk) # 定义cu文件的路径查找和依赖项mk文件 cu_srcs := $(shell find $(srcdir) -name "*.cu") cu_objs := $(cu_srcs:.cu=.cu.o) cu_objs := $(cu_objs:$(srcdir)/%=$(objdir)/%) cu_mk := $(cu_objs:.cu.o=.cu.mk) # 定义opencv和cuda需要用到的库文件 link_cuda := cudart cudnn link_trtpro := link_tensorRT := nvinfer nvinfer_plugin link_opencv := link_sys := stdc++ dl protobuf link_librarys := $(link_cuda) $(link_tensorRT) $(link_sys) $(link_opencv) # 定义头文件路径,请注意斜杠后边不能有空格 # 只需要写路径,不需要写-I include_paths := src \ $(cuda_home)/include/cuda \ $(cuda_home)/include/tensorRT \ $(cpp_pkg)/opencv4.2/include \ $(cuda_home)/include/protobuf # 定义库文件路径,只需要写路径,不需要写-L library_paths := $(cuda_home)/lib64 $(syslib) $(cpp_pkg)/opencv4.2/lib # 把library path给拼接为一个字符串,例如a b c => a:b:c # 然后使得LD_LIBRARY_PATH=a:b:c empty := library_path_export := $(subst $(empty) $(empty),:,$(library_paths)) # 把库路径和头文件路径拼接起来成一个,批量自动加-I、-L、-l run_paths := $(foreach item,$(library_paths),-Wl,-rpath=$(item)) include_paths := $(foreach item,$(include_paths),-I$(item)) library_paths := $(foreach item,$(library_paths),-L$(item)) link_librarys := $(foreach item,$(link_librarys),-l$(item)) # 如果是其他显卡,请修改-gencode=arch=compute_75,code=sm_75为对应显卡的能力 # 显卡对应的号码参考这里:https://developer.nvidia.com/zh-cn/cuda-gpus#compute # 如果是 jetson nano,提示找不到-m64指令,请删掉 -m64选项。不影响结果 cpp_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 -fPIC -fopenmp -pthread cu_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 $(cuda_arch) -Xcompiler "$(cpp_compile_flags)" link_flags := -pthread -fopenmp -Wl,-rpath='$$ORIGIN' cpp_compile_flags += $(include_paths) cu_compile_flags += $(include_paths) link_flags += $(library_paths) $(link_librarys) $(run_paths) # 如果头文件修改了,这里的指令可以让他自动编译依赖的cpp或者cu文件 ifneq ($(MAKECMDGOALS), clean) -include $(cpp_mk) $(cu_mk) endif $(name) : $(workdir)/$(name) all : $(name) run : $(name) @cd $(workdir) && ./$(name) $(run_args) $(workdir)/$(name) : $(cpp_objs) $(cu_objs) @echo Link $@ @mkdir -p $(dir $@) @$(cc) $^ -o $@ $(link_flags) $(objdir)/%.cpp.o : $(srcdir)/%.cpp @echo Compile CXX $< @mkdir -p $(dir $@) @$(cc) -c $< -o $@ $(cpp_compile_flags) $(objdir)/%.cu.o : $(srcdir)/%.cu @echo Compile CUDA $< @mkdir -p $(dir $@) @$(nvcc) -c $< -o $@ $(cu_compile_flags) # 编译cpp依赖项,生成mk文件 $(objdir)/%.cpp.mk : $(srcdir)/%.cpp @echo Compile depends C++ $< @mkdir -p $(dir $@) @$(cc) -M $< -MF $@ -MT $(@:.cpp.mk=.cpp.o) $(cpp_compile_flags) # 编译cu文件的依赖项,生成cumk文件 $(objdir)/%.cu.mk : $(srcdir)/%.cu @echo Compile depends CUDA $< @mkdir -p $(dir $@) @$(nvcc) -M $< -MF $@ -MT $(@:.cu.mk=.cu.o) $(cu_compile_flags) # 定义清理指令 clean : @rm -rf $(objdir) $(workdir)/$(name) $(workdir)/*.trtmodel $(workdir)/demo.onnx # 防止符号被当做文件 .PHONY : clean run $(name) # 导出依赖库路径,使得能够运行起来 export LD_LIBRARY_PATH:=$(library_path_export)```cpp_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 -fPIC -fopenmp -pthread cu_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 $(cuda_arch) -Xcompiler "$(cpp_compile_flags)" link_flags := -pthread -fopenmp -Wl,-rpath='$$ORIGIN'解释一下什么意思,具体一些
03-08
上述Makefile定义了一系列用于编译C++CUDA混合项目的变量和规则,特别针对Jetson Nano设备进行了优化设置。具体解释如下: - `cc`指定了使用的编译器为`g++`。 - `name`, `workdir`, `srcdir`, `objdir`, `stdcpp`等变量定义了项目名称、工作目录、源码存放位置以及目标文件夹等相关信息[^1]。 对于关键部分的详细说明: 1. **编译标志** ```makefile cpp_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 -fPIC -fopenmp -pthread cu_compile_flags := -std=$(stdcpp) -w -g -O0 -m64 $(cuda_arch) -Xcompiler "$(cpp_compile_flags)" link_flags := -pthread -fopenmp -Wl,-rpath='$$ORIGIN' ``` - `-std=c++11`: 指定采用C++11标准进行编译; - `-w`: 关闭警告信息显示; - `-g`: 添加调试信息; - `-O0`: 表示禁用代码优化(便于调试); - `-m64`: 强制使用64位架构;此选项对Jetson Nano可能需要移除以避免错误; - `-fPIC`: 创建位置无关代码; - `-fopenmp`, `-pthread`: 启用OpenMP并行计算支持及多线程编程接口; - 对于CUDA文件(`cu`),额外添加了`(cuda_arch)`参数指定GPU架构版本,并通过`-Xcompiler`传递给NVCC编译命令相同的预处理器和编译期选项集合。 2. **链接库路径配置** Makefile中还设置了各种第三方依赖库的位置及其包含关系,包括TensorRT, OpenCV以及其他必要的系统级库。这确保了在构建过程中能够正确找到所需的头文件和静态/动态库。 3. **自动重建机制** 当检测到`.cpp`或`.cu`文件发生变化时,会自动生成相应的依赖关系描述文件(如`.mk`),从而触发重新编译操作。这种设计有助于简化开发流程中的增量式更新需求。 4. **清理功能** 提供了一个简单的`clean`任务来清除之前生成的目标文件和其他中间产物,方便维护工程整洁性。 5. **环境变量导出** 最后一行`export LD_LIBRARY_PATH:=...`的作用在于设置运行时加载共享库所需搜索路径,保证程序执行期间能找到正确的外部资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

guangshui516

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值