模型推理服务器Triton | 常用命令 (持续更新)
Index API提供了一种方法来确定哪些模型可以被Load API加载。使用HTTP POST向Index端点发出模型存储库索引请求。在相应的响应中,HTTP主体包含JSON响应。模型存储库扩展需要Index、Load和Unload的API接口。Triton在以下url中公开端点。N表示Bacth Size,数据存储结构为NCHW。--explicitBatch 显示批量,即。--fp16 输出精度设置为FP16;
原创
2025-01-23 11:20:23 ·
299 阅读 ·
0 评论