llama3.2-vision


前言

前两篇文字中使用的简单llama:1b模型进行了代码生成交互。为了适配统一架构,这里测试了之前的Demo在多模态模型上的适用性。


一、llama3.2-vision多模态与纯文本

在这里插入图片描述
链接: llama3.2-vision
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是 11B 和 90B 大小(文本 + 图像输入/文本输出)的指令调整图像推理生成模型的集合。Llama 3.2-Vision 教学调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。在常见的行业基准上,这些模型的性能优于许多可用的开源和封闭式多模态模型。

支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 接受过比这 8 种支持的语言更广泛的语言集合的训练。注意 对于图像 + 文本应用程序,英语是唯一支持的语言。

二、使用步骤

1. 纯文本chat

从说明可以了解到,多模态模型的确支持纯文本任务,首先在命令行进行了简单测试:
在这里插入图片描述

2. Demo

代码使用:ollama之:chat Vs generate 终端代码, 并 更改模型为llama3.2-vision。

models_name ='llama3.2-vision'
...
model=models_name, 
...

由于内存不太够,此模型需要至少5个G的运行内存,所以关闭了pycharm,在终端执行。

3. 结果

如下图,结果与 llama3.2:1b 模型基本一致。
在这里插入图片描述


总结

考虑到多模态模型是包含纯文本任务的,本文验证了llama3.2-vision模型执行文本对话,以及生成代码等功能。因此,可以基于这一个模型实现多种功能,无需下载多种模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值