Triton 把“多个请求”打包成“一个 batch”送给你的模型,但要求你把“一个 batch 的输出”拆成“多个响应”还给客户端。


Step 2:Triton 将两个 tensor 沿 batch 维度合并
Triton 会将这两个 [1, 1] 的 tensor 在第 0 维(batch 维)上拼接,形成一个 [2, 1] 的 tensor:

Triton 把“多个请求”打包成“一个 batch”送给你的模型,但要求你把“一个 batch 的输出”拆成“多个响应”还给客户端。


Step 2:Triton 将两个 tensor 沿 batch 维度合并
Triton 会将这两个 [1, 1] 的 tensor 在第 0 维(batch 维)上拼接,形成一个 [2, 1] 的 tensor:

740
4209

被折叠的 条评论
为什么被折叠?