参照教程一步步执行:https://github.com/SmartFlowAI/Llama3-Tutorial/blob/main/docs/lmdeploy.md
下面为执行结果:

设置缓存
使用W4A16量化
启动API服务器
参照教程一步步执行:https://github.com/SmartFlowAI/Llama3-Tutorial/blob/main/docs/lmdeploy.md
下面为执行结果:

设置缓存
使用W4A16量化
启动API服务器

被折叠的 条评论
为什么被折叠?