Ollama部署LLaVA多模态大模型集成SpringBoot

最新推荐文章于 2025-06-03 23:01:18 发布

心安成长

最新推荐文章于 2025-06-03 23:01:18 发布

阅读量910

点赞数 9

CC 4.0 BY-SA版权

分类专栏： LLMs 文章标签：语言模型视觉检测 Java AI编程

本文链接：https://blog.youkuaiyun.com/u014739136/article/details/147120216

Ollama部署LLaVA多模态大模型集成SpringBoot

1. 概述

上一篇测试了在window下部署本地llama7b模型的测试效果，这一篇旨在记录部署LLaVA，大型语言和视觉助手 (LLaVA)，这是一个端到端训练的大型多模态模型，它连接视觉编码器和 LLM，用于通用的视觉和语言理解。
在这里插入图片描述

2. 安装LLaVA

安装ollama过程可以参考《初探Ollama部署llama3集成SpringAI》
打开在powershell, 输入如下命令，这里我选用的llava 13b模型在这里插入图片描述

3. 与Spring AI进行集成

3.1 部署环境

创建Spring Maven环境 https://start.spring.io/
Java JDK 21
Spring Boot 3.2.5
ollama

3.2 配置URL模型

我们在application.yml中配置模型内容

spring:
  application:
    name: spring-ai-ollama-llava-demo
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        options:
          model: llava:13b
          temperature: 0.7
server

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心安成长

关注关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ollama 多模态llava图像识别理解模型使用

weixin_42357472的博客

06-15

5417

参考： https://llava-vl.github.io/ https://ollama.com/blog/vision-models https://blog.youkuaiyun.com/weixin_42357472/article/details/137666022 图片地址前面空格就行

LLaVA多模态大模型环境搭建

space01的专栏

10-15

412

LLaVA 的早期实验表明，它展示出令人印象深刻的多模型聊天能力，有时会表现出多模型 GPT-4 在未见过的图像/指令上的行为，并在合成多模型指令遵循数据集上获得与 GPT-4 相比 85.1% 的相对分数。总之，LLaVA 的主要功能和特点是通过使用机器生成的指令遵循数据对大型语言模型进行指令调整，以提高新任务的零射击能力，并在多模态领域展示出令人印象深刻的聊天能力。设置为较低的值时，预测词的概率会变尖锐，这意味着选择最有可能的词的概率更高。可以分析图像，描述图像，进行物体识别，分析理解场景。

参与评论您还未登录，请先登录后发表或查看评论

Ollama 运行视觉语言模型LLaVA

新缸中之脑

10-05

1942

这些模型有三种参数大小。

多模态大模型LLaVA的介绍、部署、推理及Lora微调

最新发布

LFM3320829529的博客

06-03

1378

本文主要详细介绍了LLaVA模型的架构，并做了不同版本的对比。同时针对LLaVA-v1.6-Mistral-7B，做了模型的部署、推理以及Lora微调工作。最后，总结了此过程中可能遇到的常见错误，分析并给出了解决办法。

LLaVA部署

m0_45030423的博客

08-13

1053

python -m llava.serve.cli --model-path {模型权重llava-v1.5-7b的路径} --image-file "https://llava-vl.github.io/static/images/view.jpg"（也可以改为自己的图片路径） --load-4bit。在上面网址上下载需要的文件，在服务器上新建一个名为clip-vit-large-patch14-33的文件夹。在服务器新建一个名为llava-v1.5-7b的权重保存文件夹。

LLaVA大模型安装配置与使用、单论对话和测试

Netceor的博客

10-14

4543

按照官方的步骤准备好环境和包。

本地部署大模型？Ollama 部署和实战，看这篇就够了！

xiangxueerfei的博客

03-07

5652

Ollama，它来了，专为在本地机器便捷部署和运行大模型而设计。也许是目前最便捷的大模型部署和运行工具，配合Open WebUI，人人都可以拥有大模型自由。今天，就带着大家实操一番，从 0 到 1 玩转 Ollama。

80.在服务器部署LLAVA模型

欢迎来到飘去数星星的博客

06-03

300

因为服务器权限限制，所以ollama只能装在docker容器里。但是接下来还需要测试一下那个是否能够被成功调用，明天接着测试。拉取列表之后发现，已经在容器里，说明安装成功。启动后拉取llava：7b模型。

基于Python的LoRA微调技术对LLaVA多模态大模型进行多任务学习实现（含详细可运行代码及解释）

03-11

内容概要：本文详细介绍了一种使用低秩适应（LoRA）微调技术在Python环境中对多模态大模型 LLaVA 执行多任务学习的方法。通过逐步介绍所需库的安装，参数设定与模型加载、数据集准备，训练函数构建及调优等关键步骤...

多模态大模型 LLaVA

听雨草堂

09-23

441

人类通过诸如视觉和语言等多种渠道与世界进行互动的方式，每种渠道在表达和交流某些概念方面都有其独特的优势，这有助于更好地理解世界。人工智能的一个核心目标是开发一种通用助手，这种助手可以有效地跟随多模态（视觉和语言）指令，符合人类意图以完成各种真实环境中的任务。为达到这一目的，研究社区发展能够处理多模态指令的大规模语言模型。特别是在利用机器生成的指令跟随数据对大规模语言模型进行微调以改善其在新任务上的零样本能力方面，尽管这种方法在多模态领域探索较少，但已经被证明是有益的。

玩转大语言模型——langchain调用ollama视觉多模态语言模型

艾醒的博客

01-11

2286

视觉多模态语音模型由预训练的多模态编码器、预训练的 LLM 以及连接两者的多模态接口等主要组件构成。将图像信息转换为可被语言模型处理的特征表示。拥有强大的视觉理解能力，能够准确理解图像内容，进行图像描述、视觉问答、图像定位等任务。可以与用户进行多轮交互，根据用户的文本和图像输入生成连贯、准确且有针对性的回答。本篇文章将介绍使用langchain调用ollama视觉多模态语音模型。

llava1.5-部署

zhzxlcc的博客

10-21

3907

新建weights文件夹，并下载到LLaVA/weights/中。->需要修改文件名为llava-版本，例如llava-v1.5-7b.

LLaVA1.5部署

m0_55985272的博客

10-13

748

2.下载llavabench,，放到LLaVA文件夹内,改里面的路径。2.若在服务器上部署，还要ssh一下才能打开webui，先打开终端。1.下载llavabench,，放到LLaVA文件夹内。2.git或者ssh，下载LLaVA工程文件。1.创建conda虚拟环境。1.开三个终端，分别。

Llava-1.5v模型部署指南

胭脂草的ABC博客

02-02

2342

Llava是开源的多模态大模型，由威斯康星麦迪逊大学的Haotian Liu等人研发并发布，论文已中2023NIPS。

保姆级llava-v1.5-7b部署教程

热门推荐

kikiLQQ的博客

01-15

2万+

最近的研究工作需要基于LLAVA的部署，由于hugging face联网等等的原因，遇到了一些问题。因此写这篇博客记录分享完整的部署步骤。本文将面向服务器无法连接hugging face的用户，保姆级地描述完整的部署流程。

windows本地部署llava-v1.5-7b

MT的博客

04-13

2882

部署过程中主要是在启动阶段报错多，如果控制台出现404not found，看看加载模型有没有成功，一般就是加载模型那段命令报错多，然后可以看看端口号是否被占用，github上例子的端口号10000我就一直不行，然后我把端口号换成10001。第三步，载入模型，这里要修改路径，改成你的模型权重文件路径，如果命令行当前路径是代码文件，那么红框直接改成模型权重文件名就行。然后，执行启动gradio web server命令，这一步是能在网页中可视化交互，如果最后状态是200就说明启动成功，

使用LLaVa和Ollama实现多模态RAG示例

ppoojjj的博客

07-09

1549

我们使用Pydantic定义所需的结构化数据模型。

国内部署 LLaVA-v1.6

weixin_51609751的博客

10-29

2651

国内部署 LLaVA-v1.6

LLaVA论文阅读+Colab部署

Czi.的博客

07-22

1442

将大型语言模型（LLMs）通过机器生成的指令跟随数据进行指令调优已被证明可以提高其在新任务上的零样本能力，但这一理念在多模态领域探索较少。我们首次尝试使用仅语言的GPT-4生成多模态语言-图像指令跟随数据。通过对这种生成的数据进行指令调优，我们引入了LLaVA：大语言与视觉助手，一个端到端训练的大型多模态模型，它连接了视觉编码器和LLM，用于通用的视觉和语言理解。为了促进未来关于视觉指令跟随的研究，我们构建了两个包含多样且具有挑战性的应用导向任务的评估基准。我们的实验表明，

autodl部署llava

02-18

### 部署 LLaVA 模型于 AutoDL 平台 #### 所需环境准备为了顺利部署 LLaVA 模型，在 AutoDL 上需要预先安装一系列必要的软件包和库。这通常涉及 Python 环境及其版本的选择，推荐使用 Python 3.8 或以上版本[^1]。 #### 安装依赖项通过 pip 工具来管理项目所需的各种第三方库是一个常见做法。对于 LLaVA 而言，除了基础的 PyTorch 外，还需要额外安装 transformers 库以及其他可能由特定模型架构所决定的支持库。可以创建一个新的虚拟环境并执行如下命令： ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117 pip install transformers datasets accelerate bitsandbytes safetensors ``` 这些操作确保了运行环境中具备处理大型语言模型的能力，并能够加载来自 Hugging Face 社区共享资源中的预训练权重文件。 #### 数据集准备考虑到 LLaVA 对输入数据有着特殊的要求——即不仅限于纯文本序列，还包括图像信息作为上下文的一部分。因此，在上传至 AutoDL 前，应当按照官方文档指示调整好本地存储结构，使得每条记录都包含了对应的图片路径或 URL 及其关联的文字描述。这种格式化过程有助于简化后续推理阶段的数据读取逻辑。 #### 加载预训练模型与微调设置借助 XTuner 提供的技术手段，已经针对不同应用场景优化过的多个变体可供挑选。例如 `LLaVA-InternLM2-20B` 这样的高性能实例可以直接从公开仓库获取到相应的 checkpoint 文件。接着便是依据实际业务目标选取合适的迁移学习策略（如 QLoRA、LoRA），并通过修改配置文件指定待更新层的位置及范围。 #### 推理服务构建最后一步则是编写一段简洁的服务端代码片段用于接收外部请求并将预测结果返回给客户端应用。这里给出一个基于 Flask 框架实现 RESTful API 的简单例子： ```python from flask import Flask, request, jsonify import torch from PIL import Image from transformers import pipeline app = Flask(__name__) device = "cuda" if torch.cuda.is_available() else "cpu" model_name_or_path = "./path_to_your_model_directory" image_captioning_pipeline = pipeline( task="image-to-text", model=model_name_or_path, device=0 if device=="cuda" else -1) @app.route('/predict', methods=['POST']) def predict(): img_url = request.json.get('img_url') image = Image.open(requests.get(img_url, stream=True).raw) output = image_captioning_pipeline(image)[0]['generated_text'] return jsonify({"caption":output}) if __name__ == '__main__': app.run(host='0.0.0.0', port=5000) ``` 上述脚本展示了如何集成已有的多模态能力进入 Web Service 中去，从而允许远程用户提交包含链接指向某张照片的消息体后获得即时反馈。