LLaMA-Factory 作为一款开源的大语言模型微调与推理框架,提供了 5 种核心推理方式,覆盖从本地调试到生产部署的全流程需求。以下是具体方式及示例:
1. 交互式命令行推理
适用场景:快速测试模型效果或进行简单对话。
示例命令:
# 使用原始模型推理
llamafactory-cli chat examples/inference/llama3.yaml
# 使用微调后的LoRA模型推理(需指定适配器路径)
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
操作流程:
- 直接输入文本(如
你是谁),模型实时生成回复。 - 支持多轮对话,历史记录自动保留。
2. Web可视化界面推理
适用场景:需要图形化交互或演示的场景。
启动命令:
# 启动Web聊天界面(支持多模态模型如LLaVA)
llamafactory-cli webchat examples/inference/llava1_5.yaml
功能亮点:
- 浏览器访问
http://localhost:7860即可使用。

最低0.47元/天 解锁文章
1072

被折叠的 条评论
为什么被折叠?



