一文看懂Agent搭建策略:从稳妥到激进路线,及VLLM图片分辨率策略

我们来看两个问题。

一个是Agent,看看推理大模型规划能力搭建Agent应用的一些变化,那些是稳妥、次稳妥、激进的思路。

一个是技术侧看文档智能,主要看多模态大模型的分辨率处理策略,看目前有哪些主流应对方案。

前排提示,文末有大模型AGI-优快云独家资料包哦!

一、Agent应用搭建的5个问题

Agent的东西已经讲了很多了,Agent已经成为互联网的新流量入口。我们站在现在众多智能体产品,如manus,百度心响、天工超级智能体等节点上,再来看看这个问题。

1、Agent的构成跟核心?

LLM是Agent的大脑,其核心能力是 “逻辑推理 ”,其中包括多个部件

Planning Skills:对问题进行拆解得到解决路径 ,既进行任务规划; Tool Use:评估自⼰所需的工具,进行工具选择 ,并生成调用工具请求;

Memory:短期记忆包括工具返回值,已完成推理路径;

长期记忆包括可访问的外部长期存储等。

2、Agent研发的实际窘境?

Deepseek等大模型的能力持续快速提升,带动AI智能体的能力提升。

但是,现在依旧存在多个问题,例如:

大模型的能力没那么强,其不确定性直接导致;Agent的规划能力依赖于prompt工程能力,它比想象中更重要、执行起来也更琐碎;不要让Agent一次性做复杂的推理性规划工作,而是把复杂任务人工拆解后再教给Agent;

Agent的Action能力强烈依赖于基座模型的 functioncalling能力。在规划Agent之前,对模型的functioncalling能力要充分调研;

3、Agent开发的最稳妥路线-低代码平台Agent?

既然大模型能力不行,那么就直接把大模型当啥子好了,不让它做规划,只让他做一个单点的执行,但这种做法做出来的,与Agent的初衷背道而驰。

最稳妥的Agent开发范式,就是人工定义好实现流程,低代码平台开发,例如,Dify应用开发平台,多模型支持、可视化工作流设计、检索增强生成(RAG)、API 接口与 SDK、数据与监控等核心功能,适用于企业知识管理、智能客服与问答系统、代码助手、自动化办公等场景。

4、Agent开发的次稳妥路线-交互型平台Agent?

最稳妥的Agent开发范式,就是人工定义好实现流程,低代码平台开发。但这个太慢,是否可以做个折中?

其实是可以的,这个也是一个趋势,

实现方式:每一步出llm结果,人工编辑确认执行。对于用户不清楚的问题,llm以多轮追问的方式进行引导->用户确认,迭代至意图信息完整,然后再最终生成结果,例如如下天工智能体的人工接入补充信息的中间过程:

5、Agent开发的激进路线-纯自动平台Agent?

激进路线,就是全放开让大模型去做Agent,但这块容易受到通用性的挑战,也需要做大量的prompt工程或者流程设计,例如manus等为代表。

这个不是很可控,并且很容易陷入死循环,或者耗费大量token。

二、视觉大模型的图片分辨率策略有哪些?

现在视觉多模态模型,尤其是在处理文档图像时,图像的分辨率的处理逻辑直接影响模型效果,这连同数据成为两个重要工程性工作。

很自然的想法,就是分辨率越高越好,但是其中的Transformer的注意力机制导致Token数量增加时计算量激增(如Qwen2-VL处理4K图像需16K Token),分块策略易丢失全局结构,无损缩放则计算成本高。

所以,目前也有一些新趋势。比如,渐进式分辨率思路,InternVL2从低分辨率开始训练,逐步过渡到高分辨率,或者采用多阶段微调方案,如LLaVA-UHD冻结视觉编码器,仅微调重采样器和LLM,缩短训练周期

所以,当我们看现有的主流模型时候,可以挖掘出其中的一些典型处理措施。

具体的:

1)InternVL2采用动态切块策略,将图像分割为多个448x448像素块,同时配合Pixel Shuffle技术降低计算量。

2)Qwen-VL通过Naive Dynamic Resolution机制,移除绝对位置嵌入改用2D-RoPE,实现任意分辨率处理。

3)LLaVA-UHD采用图像模块化策略,将高分辨率图像分割为可变大小的切片,并通过视觉Token压缩技术减少计算负担。这种方法能保持任意宽高比,避免信息丢失。

4)LLaVA-Next采用双分支处理(切图和缩放),同时保留全局语义和局部细节,实现动态高分辨率。

5)MiniCPM-V系列采用"全局缩略图+局部网格切片"方案,通过复杂的分块算法处理高分辨率图像;

6)Qwen2-VL则通过自适应缩放和维度重排直接处理原始图像,避免切割导致的信息断裂。

那么,是否可以再总结下,形成一些可用的策略?大致就是如下几种:

1)动态分块与切片(Patch Partition)策略

其思想在于将高分辨率图像分割为多个子图,分别编码后融合特征,避免整图缩放导致的细节丢失

在具体实现上,主要包括自适应网格划分、全局缩略图补偿以及Token压缩几个实现步骤,例如:

自适应网格划分方面,根据图像宽高比动态计算最优分块数量(如m×n网格),确保子图宽高比接近预训练标准(如14的倍数)。

全局缩略图补偿方面,在分块基础上添加低分辨率全局图(如MiniCPM-V系列),保留整体结构信息,解决分块导致的语义割裂问题。

Token压缩方面,使用重采样器(如LLaVA-UHD的Q-Former)压缩子图Token,将可变长度视觉特征统一为固定长度,降低计算开销,这个主要冲着降低计算量去的

2、无损自适应缩放(Resolution-aware Scaling)策略

无损自适应缩放的核心思想在于,直接处理原始分辨率图像,通过维度重排和缩放减少像素损失

在具体实现上,主要包括如下几点:

一个是分辨率微调,例如Qwen2-VL将图像调整至28的倍数分辨率(如1365×2048 → 1372×2044),确保与视觉编码器的Patch机制兼容。

一个是动态Token生成,移除ViT的绝对位置嵌入,引入2D旋转位置编码(2D-RoPE),支持任意分辨率生成可变数量视觉Token(低至4个)。

3、 局部-全局特征融合(Hybrid Resolution Encoding)策略

局部-全局特征融合策略也是一种常用方式,其核心思想为,并行处理低分辨率全局特征和高分辨率局部特征,选择性融合关键信息

而既然要用到全局信息和局部信息,因此,可以采用双分支编码器,如Mini-Gemini,一路编码低分辨率全局语义,另一路提取高分辨率局部特征,通过交叉注意力检索关键细节。

也可以采用多尺度特征池化,如S2-Wrapper,将不同尺度子图特征池化至统一空间尺寸并拼接,增强细节感知。

 读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值