前言
前两篇文字中使用的简单llama:1b模型进行了代码生成交互。为了适配统一架构,这里测试了之前的Demo在多模态模型上的适用性。
一、llama3.2-vision多模态与纯文本

链接: llama3.2-vision
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是 11B 和 90B 大小(文本 + 图像输入/文本输出)的指令调整图像推理生成模型的集合。Llama 3.2-Vision 教学调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。在常见的行业基准上,这些模型的性能优于许多可用的开源和封闭式多模态模型。
支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 接受过比这 8 种支持的语言更广泛的语言集合的训练。注意 对于图像 + 文本应用程序,英语是唯一支持的语言。
二、使用步骤
1. 纯文本chat
从说明可以了解到,多模态模型的确支持纯文本任务,首先在命令行进行了简单测试:

2. Demo
代码使用:

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



