【AI大模型】Llama 3.2 Vision支持中文，多模态AI和图片推理

最新推荐文章于 2025-01-09 11:25:30 发布

小涂Ss

最新推荐文章于 2025-01-09 11:25:30 发布

阅读量1.6k

点赞数 16

文章标签：人工智能 llama 语言模型 ai agi LLM AI大模型

本文链接：https://blog.youkuaiyun.com/Gaga246/article/details/144347591

版权

前言

AI正在迅速发展，多模态模型，即那些能够解释和生成多种格式数据的模型，正在成为创新的核心。Llama 3.2 Vision 是AI领域的突破性成果，它在图像推理、视觉识别、标题生成和基于图像的问答等方面带来了无与伦比的能力。Llama 3.2 Vision拥有两个版本，11B和90B参数。

Llama 3.2 Vision的Ollama地址：https://ollama.com/library/llama3.2-vision。

使用Lora版本，即可让Llama 3.2 Vision支持中文：https://huggingface.co/Kadins/Llama-3.2-Vision-chinese-lora。

1 Llama 3.2 Vision特点

1.1、支持多模态

Llama 3.2 Vision 能够处理文本和图像输入，能针对不同应用场景输出文本结果。具备以下功能：

手写识别：识别手写文字。
光学字符识别（OCR）：将图像中的文字转换为可编辑文本。
图表和表格解释：解析图表和表格中的数据。
图像问答：基于图像内容回答问题。

1.2、两种规模模型

Llama 3.2 Vision 提供两种不同参数规模的模型，以适应不同的应用需求：

11B 参数模型：适合处理小规模项目，至少需要8GB显存。这一模型在 Hugging Face 平台上开放，致力于开源和开放科学，推动人工智能的普及和发展。了解更多
90B 参数模型：专为需要高性能的任务设计，至少需要64GB显存。同样在 Hugging Face 平台提供，秉承开源精神，助力人工智能技术的民主化。了解更多

1.3、语言支持

Llama 3.2 Vision 在文本处理方面支持多种语言，具体包括：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。通过Lora，还可支持中文。

对于结合图像和文本的任务，目前仅支持英语。

1.4、性能

Llama 3.2 Vision 在许多领先的开源和专有多模态模型中表现优异，其性能在行业标准的基准测试中屡获高分，证明了具备卓越的技术实力。

2 开始使用 Llama 3.2 Vision

步骤1：安装 Ollama

首先，需要从ollama.ai下载最新版本（0.4）的Ollama软件。安装完成后，在终端中执行以下命令来启动Llama 3.2 Vision的不同模型：

启动11B模型：
```
ollama run llama3.2-vision   
```
启动90B模型：
```
ollama run llama3.2-vision:90b   
```

步骤2：添加图像到命令提示

在命令提示中包含图像有两种简便方法：

1）拖放图像：直接将图像文件拖拽到终端窗口。

2）指定图像路径：在命令提示中输入图像的文件路径。

3 使用示例

3.1、Python 集成

使用 Ollama Python 库将 Llama 3.2 Vision 集成到 Python 中非常简单。以下是示例：

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[
        {
            'role': 'user',
            'content': '这张图片里有什么？',
            'images': ['image.jpg']
        }
    ]
)
print(response)

3.2、JavaScript 集成

Ollama JavaScript 库可以轻松集成到 Web 应用程序中：

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'llama3.2-vision',
  messages: [{
    role: 'user',
    content: '这张图片里有什么？',
    images: ['image.jpg']
  }]
})
console.log(response)

3.3、使用 cURL

快速测试时，使用以下 cURL 命令：

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2-vision",
  "messages": [
    {
      "role": "user",
      "content": "这张图片里有什么？",
      "images": ["<base64-encoded image data>"]
    }
  ]
}'