qwen2.5-vl解析在线图片内容

部署运行你感兴趣的模型镜像

用ollama下载了qwen2.5-vl这个视觉模型,试了下,发现图片理解能力还挺好,感谢开源贡献者的辛勤付出。
我们知道qwen2.5-vl这个视觉模型的api调用对图片有些限制,一个是只能base64编码,二是对图片的长宽有所限制,qwen2.5-vl部署时设置了max_pixels,图片的长宽不能突破这个限制,当然size大了,解析也会慢,而且也会消耗更多的tokens。
那么我们怎样解析在线的图片内容呢?首先必须将图片size缩小到限制范围内,然后对其进行base64编码。为提高效率,不写入本地文件,都在缓冲区进行转换。
我比较喜欢nodejs来编码,以下是实现:

const sharp = require('sharp');

const width = 800;
const height = 600;

async function getimgcontent(imgurl,question) {
	try {
		const response = await fetch(imgurl);
		if (!response.ok) throw new Error(`HTTP ${response.status}`);
		const buffer = Buffer.from(await response.arrayBuffer());
		const resizedImageBuffer = await sharp(buffer).resize(width, height).toBuffer();
		const base64Image = resizedImageBuffer.toString('base64');

		let result=await fetch("http://127.0.0.1:11434/api/generate", {
			method: "POST",
			headers: { "Content-Type": "application/json" },
			body: JSON.stringify({
				"model": "qwen2.5vl:7b",
				"prompt": question,
				"stream": false,
				"images": [base64Image]
				})
			}).then(response=>response.json()).then(res=>res.response);
		return result;
		} catch (error) {
			console.error('图片内容解析出错:', error);
			throw error;
			}
	}

(async () => {
	try {
		const result = await getimgcontent(yourimgurl,"图片中有什么内容?");
		console.log(result);
		} catch(error) { console.error(error); }
	})();

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### 关于 Qwen2.5-VL解析方法 Qwen2.5-VL 是通义千问系列中的多模态版本之一,支持文本与视觉信息的联合处理。为了有效解析该模型的相关文档并理解其功能实现方式,可以从以下几个方面入手: #### 1. **官方文档** 通常情况下,大型语言模型及其变体都会提供详细的官方技术文档。对于 Qwen2.5-VL,建议访问阿里云官网的技术博客或 GitHub 页面获取最新资料[^1]。这些资源可能包括但不限于以下内容- 模型架构设计说明。 - 数据集训练细节。 - 推理接口调用指南。 #### 2. **数据格式分析** 如果需要手动解析 Qwen2.5-VL 输出的数据结构,则需关注输入输出的具体形式。例如,在涉及图像识别的任务中,可能会返回 JSON 格式的预测结果。以下是假设的一个简单示例代码片段用于展示如何读取此类响应: ```python import json def parse_qwen_vl_response(response_str): try: data = json.loads(response_str) # 假设 'caption' 字段保存了图片描述文字 caption_text = data.get('caption', '') confidence_score = data.get('confidence', None) return { "description": caption_text, "score": confidence_score } except Exception as e: print(f"Parsing failed due to {e}") return {} example_output = '{"caption":"a black cat sitting on a chair", "confidence":0.98}' parsed_result = parse_qwen_vl_response(example_output) print(parsed_result) ``` 上述脚本定义了一个函数来提取关键字段,并通过异常捕获机制增强了鲁棒性[^2]。 #### 3. **工具链集成** 当考虑将 Qwen2.5-VL 集成到现有工作流时,可利用 RESTful API 或 SDK 提供的支持简化操作流程。具体步骤如下所示(伪代码示意): ```bash curl https://model-service.aliyun.com/api/v1/inference \ -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \ -d '{"image_url":"https://path/to/image.jpg"}' ``` 此命令向远程服务器发送请求并将目标图片作为参数传递进去等待进一步处理。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值