一文看懂Agent搭建策略：从稳妥到激进路线，及VLLM图片分辨率策略

原创于 2025-06-27 20:46:47 发布 · 1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#大语言模型 #本地部署 #ai #人工智能 #微调 #大模型 #Agent

我们来看两个问题。

一个是Agent，看看推理大模型规划能力搭建Agent应用的一些变化，那些是稳妥、次稳妥、激进的思路。

一个是技术侧看文档智能，主要看多模态大模型的分辨率处理策略，看目前有哪些主流应对方案。

前排提示，文末有大模型AGI-优快云独家资料包哦！

一、Agent应用搭建的5个问题

Agent的东西已经讲了很多了，Agent已经成为互联网的新流量入口。我们站在现在众多智能体产品，如manus，百度心响、天工超级智能体等节点上，再来看看这个问题。

1、Agent的构成跟核心？

LLM是Agent的大脑，其核心能力是 “逻辑推理 ”，其中包括多个部件

Planning Skills：对问题进行拆解得到解决路径，既进行任务规划； Tool Use：评估自⼰所需的工具，进行工具选择，并生成调用工具请求；

Memory：短期记忆包括工具返回值，已完成推理路径；

长期记忆包括可访问的外部长期存储等。

2、Agent研发的实际窘境？

Deepseek等大模型的能力持续快速提升，带动AI智能体的能力提升。

但是，现在依旧存在多个问题，例如：

大模型的能力没那么强，其不确定性直接导致；Agent的规划能力依赖于prompt工程能力，它比想象中更重要、执行起来也更琐碎；不要让Agent一次性做复杂的推理性规划工作，而是把复杂任务人工拆解后再教给Agent；

Agent的Action能力强烈依赖于基座模型的 functioncalling能力。在规划Agent之前，对模型的functioncalling能力要充分调研；

3、Agent开发的最稳妥路线-低代码平台Agent？

既然大模型能力不行，那么就直接把大模型当啥子好了，不让它做规划，只让他做一个单点的执行，但这种做法做出来的，与Agent的初衷背道而驰。

最稳妥的Agent开发范式，就是人工定义好实现流程，低代码平台开发，例如，Dify应用开发平台，多模型支持、可视化工作流设计、检索增强生成（RAG）、API 接口与 SDK、数据与监控等核心功能，适用于企业知识管理、智能客服与问答系统、代码助手、自动化办公等场景。

4、Agent开发的次稳妥路线-交互型平台Agent？

最稳妥的Agent开发范式，就是人工定义好实现流程，低代码平台开发。但这个太慢，是否可以做个折中？

其实是可以的，这个也是一个趋势，

实现方式：每一步出llm结果，人工编辑确认执行。对于用户不清楚的问题，llm以多轮追问的方式进行引导->用户确认，迭代至意图信息完整，然后再最终生成结果，例如如下天工智能体的人工接入补充信息的中间过程：

5、Agent开发的激进路线-纯自动平台Agent？

激进路线，就是全放开让大模型去做Agent，但这块容易受到通用性的挑战，也需要做大量的prompt工程或者流程设计，例如manus等为代表。

这个不是很可控，并且很容易陷入死循环，或者耗费大量token。

二、视觉大模型的图片分辨率策略有哪些？

现在视觉多模态模型，尤其是在处理文档图像时，图像的分辨率的处理逻辑直接影响模型效果，这连同数据成为两个重要工程性工作。

很自然的想法，就是分辨率越高越好，但是其中的Transformer的注意力机制导致Token数量增加时计算量激增（如Qwen2-VL处理4K图像需16K Token），分块策略易丢失全局结构，无损缩放则计算成本高。

所以，目前也有一些新趋势。比如，渐进式分辨率思路，InternVL2从低分辨率开始训练，逐步过渡到高分辨率，或者采用多阶段微调方案，如LLaVA-UHD冻结视觉编码器，仅微调重采样器和LLM，缩短训练周期。

所以，当我们看现有的主流模型时候，可以挖掘出其中的一些典型处理措施。

具体的：

1）InternVL2采用动态切块策略，将图像分割为多个448x448像素块，同时配合Pixel Shuffle技术降低计算量。

2）Qwen-VL通过Naive Dynamic Resolution机制，移除绝对位置嵌入改用2D-RoPE，实现任意分辨率处理。

3）LLaVA-UHD采用图像模块化策略，将高分辨率图像分割为可变大小的切片，并通过视觉Token压缩技术减少计算负担。这种方法能保持任意宽高比，避免信息丢失。

4）LLaVA-Next采用双分支处理（切图和缩放），同时保留全局语义和局部细节，实现动态高分辨率。

5）MiniCPM-V系列采用"全局缩略图+局部网格切片"方案，通过复杂的分块算法处理高分辨率图像；

6）Qwen2-VL则通过自适应缩放和维度重排直接处理原始图像，避免切割导致的信息断裂。

那么，是否可以再总结下，形成一些可用的策略？大致就是如下几种：

1）动态分块与切片（Patch Partition）策略

其思想在于将高分辨率图像分割为多个子图，分别编码后融合特征，避免整图缩放导致的细节丢失。

在具体实现上，主要包括自适应网格划分、全局缩略图补偿以及Token压缩几个实现步骤，例如：

自适应网格划分方面，根据图像宽高比动态计算最优分块数量（如m×n网格），确保子图宽高比接近预训练标准（如14的倍数）。

全局缩略图补偿方面，在分块基础上添加低分辨率全局图（如MiniCPM-V系列），保留整体结构信息，解决分块导致的语义割裂问题。

Token压缩方面，使用重采样器（如LLaVA-UHD的Q-Former）压缩子图Token，将可变长度视觉特征统一为固定长度，降低计算开销，这个主要冲着降低计算量去的。

2、无损自适应缩放（Resolution-aware Scaling）策略

无损自适应缩放的核心思想在于，直接处理原始分辨率图像，通过维度重排和缩放减少像素损失。

在具体实现上，主要包括如下几点：

一个是分辨率微调，例如Qwen2-VL将图像调整至28的倍数分辨率（如1365×2048 → 1372×2044），确保与视觉编码器的Patch机制兼容。

一个是动态Token生成，移除ViT的绝对位置嵌入，引入2D旋转位置编码（2D-RoPE），支持任意分辨率生成可变数量视觉Token（低至4个）。

3、局部-全局特征融合（Hybrid Resolution Encoding）策略

局部-全局特征融合策略也是一种常用方式，其核心思想为，并行处理低分辨率全局特征和高分辨率局部特征，选择性融合关键信息。

而既然要用到全局信息和局部信息，因此，可以采用双分支编码器，如Mini-Gemini，一路编码低分辨率全局语义，另一路提取高分辨率局部特征，通过交叉注意力检索关键细节。

也可以采用多尺度特征池化，如S2-Wrapper，将不同尺度子图特征池化至统一空间尺寸并拼接，增强细节感知。

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用

针对0基础小白：

如果你是零基础小白，快速入门大模型是可行的。
大模型学习流程较短，学习内容全面，需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一，跟着老师的思路，由浅入深，从理论到实操，其实大模型并不难。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓