deepstream-nvinferserver

最新推荐文章于 2024-09-21 10:16:35 发布

原创最新推荐文章于 2024-09-21 10:16:35 发布

· 356 阅读

0 ·

版权

文章标签：

#deepstream #计算机视觉

deepstream 专栏收录该内容

28 篇文章

订阅专栏

本文探讨了nvinferserver的开源版本中，插件层与底层库在处理output_host_buffers和output_device_buffers的区别，重点介绍了内存分配和复制机制，以及nvinferserver如何强制转换输出类型到hostCPU。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nvinferserver的插件和底层库在DS6.3上开源了。这样nvinferserver和nvinfer推理就都开源了，有什么问题，可以直接调代码。

NvDsInferTensorMeta{

/** Array of pointers to the output host buffers for the batch / frame / object. */

void **out_buf_ptrs_host;

/** Array of pointers to the output device buffers for the batch / frame / object. */

void **out_buf_ptrs_dev;

/** GPU device ID on which the device buffers have been allocated. */

}

问题1， out_buf_ptrs_host和out_buf_ptrs_dev在nvinfer和nvinferserver中有什么区别呢？

可以从插件层往底层查这个问题，在nvinfer中，赋值的地方是：

attach_tensor_output_meta{

meta->out_buf_ptrs_host = new void *[meta->num_output_layers];

meta->out_buf_ptrs_dev = new void *[meta->num_output_layers];

。。。。。。

meta->out_buf_ptrs_dev[i] =

(uint8_t *) batch_output->outputDeviceBuffers[i] +

info.inferDims.numElements * get_element_size (info.dataType) * j;

meta->out_buf_ptrs_host[i] =

(uint8_t *) batch_output->hostBuffers[info.bindingIndex] +

info.inferDims.numElements * get_element_size (info.dataType) * j;

。。。。。。

}

那就得去底层找outputDeviceBuffers和hostBuffers。

在InferPostprocessor::postProcessHost中，可以看到outputDeviceBuffers指向GPU的buffer。

batchOutput.outputDeviceBuffers[i] =

batch.m_DeviceBuffers[m_OutputLayerInfo[i].bindingIndex];

在InferPostprocessor::postProcessHost中，可以看到hostBuffers指向m_HostBuffers，那m_HostBuffers从哪里来？

batchOutput.hostBuffers[i] =

batch.m_HostBuffers[i] ? batch.m_HostBuffers[i]->ptr() : nullptr;

在InferPostprocessor::copyBuffersToHostMemory中，因为needOutputCopyB4Processing一直是true，所以必然进入如下判断，从m_DeviceBuffers中拷贝数据到m_HostBuffers。

if (!info.isInput && needOutputCopyB4Processing())

{

cudaMemcpyAsync(batch.m_HostBuffers[info.bindingIndex]->ptr(),

batch.m_DeviceBuffers[info.bindingIndex],

}

在nvinferserver中，逻辑是不一样的，在插件的attachTensorOutputMeta中，out_buf_ptrs_dev赋的空，只有out_buf_ptrs_host可用。

{

void *bufPtr = buf->getBufPtr(batchIdx);

meta->out_buf_ptrs_host[i] = bufPtr;

meta->out_buf_ptrs_dev[i] = nullptr;

}

以为nvinferserver的CAPI为例，nvinferserver在做推理的时候，需要指定输出的回调函数，也就是TrtISBackend::allocateResponseBuf，在nvdsinferserver_common.proto中，可以找到输出buffer的支持的类型， triton默认输出gpubuffer类型。

/** Tensor memory type
*/
enum MemoryType {
MEMORY_TYPE_DEFAULT = 0;
MEMORY_TYPE_CPU = 1;
MEMORY_TYPE_GPU = 2;
}

在memTypeFromDsProto中，会将配置转为内部类型。

memTypeFromDsProto(ic::MemoryType t)

{

static const std::unordered_map<ic::MemoryType, InferMemType> sTypes{

{ic::MEMORY_TYPE_DEFAULT, InferMemType::kNone},

{ic::MEMORY_TYPE_CPU, InferMemType::kCpuCuda},

{ic::MEMORY_TYPE_GPU, InferMemType::kGpuCuda},

};

}

nvinerserver会强行想triton的返回值转成hostcpu类型，在InferCudaContext::acquireTensorHostBuf中创建hostbuffer, 在Postprocessor::postCudaImpl中，通过 cudaMemcpyAsync(outBufPtr, inBufPtr把gpubuffer拷贝到cpubuffer。

因为out_buf_ptrs_host指向的是hostcpu类型的buffer。