加州大学伯克利分校和LMSYS提出SGLang runtime 提升大模型推理速度。
参考:
https://github.com/sgl-project/sglang
https://zhuanlan.zhihu.com/p/711378550?utm_psn=1803494043608543232
https://developer.aliyun.com/article/1575072
加州大学伯克利分校和LMSYS提出SGLang runtime 提升大模型推理速度。
参考:
https://github.com/sgl-project/sglang
https://zhuanlan.zhihu.com/p/711378550?utm_psn=1803494043608543232
https://developer.aliyun.com/article/1575072
2092
3272

被折叠的 条评论
为什么被折叠?