官方项目里的报告
在 runtime/triton_trtllm/README.md 文件中提供了关于 Client-Server 模式下 Streaming TTS(流式语音合成)的低延迟基准测试数据。
以下是基于单个 L20 GPU 的测试结果(首包延迟 First Chunk Latency):
| 模式 (Mode) | 并发数 (Concurrency) | 平均延迟 (Avg Latency ms) | P50 延迟 (ms) | 实时率 (RTF) |
|---|---|---|---|---|
| Streaming, use_spk2info_cache=False | 1 | 220.43 | 218.07 | 0.1237 |
| Streaming, use_spk2info_cache=False | 2 | 476.97 | 369.25 | 0.1022 |
| Streaming, use_spk2info_cache=False | 4 | 1107.34 | 1243.75 | 0.0922 |
订阅专栏 解锁全文
639

被折叠的 条评论
为什么被折叠?



