前言
前两篇文字中使用的简单llama:1b模型进行了代码生成交互。为了适配统一架构,这里测试了之前的Demo在多模态模型上的适用性。
一、llama3.2-vision多模态与纯文本
链接: llama3.2-vision
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是 11B 和 90B 大小(文本 + 图像输入/文本输出)的指令调整图像推理生成模型的集合。Llama 3.2-Vision 教学调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。在常见的行业基准上,这些模型的性能优于许多可用的开源和封闭式多模态模型。
支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 接受过比这 8 种支持的语言更广泛的语言集合的训练。注意 对于图像 + 文本应用程序,英语是唯一支持的语言。
二、使用步骤
1. 纯文本chat
从说明可以了解到,多模态模型的确支持纯文本任务,首先在命令行进行了简单测试:
2. Demo
代码使用:ollama之:chat Vs generate 终端代码, 并 更改模型为llama3.2-vision。
models_name ='llama3.2-vision'
...
model=models_name,
...
由于内存不太够,此模型需要至少5个G的运行内存,所以关闭了pycharm,在终端执行。
3. 结果
如下图,结果与 llama3.2:1b 模型基本一致。
总结
考虑到多模态模型是包含纯文本任务的,本文验证了llama3.2-vision模型执行文本对话,以及生成代码等功能。因此,可以基于这一个模型实现多种功能,无需下载多种模型。