赋范大模型技术社区-优快云博客

原创 DeepSeek V3.2重磅发布：性能比肩gemini 3.0 Pro，价格不足五分之一！打破垄断，开源界注入强心剂！

DeepSeek V3.2 正式版发布，性能全面对标全球顶尖模型Gemini 3.0 Pro，在数学、编程等领域实现革命性突破。该模型采用创新的DSA注意力机制和GRPU训练框架，显著降低50%以上推理成本，价格仅为竞品的1/4到1/5。其编程能力达到GPT-5水平，支持千行代码生成；Agent能力引入"边思考边调用工具"模式，性能差距缩小至5%以内。同步开源的实验模型V3.2 Speciale专注于复杂问题解决，具备MO金牌级数学能力。作为完全开源的高性价比国产模型，DeepSeek

2025-12-02 11:44:50 234

原创 LangChain 1.0 搭建票据审核Agent（附源码）

本篇将手把手带你用 LangChain 1.0 联合 Qwen3-VL 多模态模型，搭建一个能自动“看懂发票”、输出结构化 JSON 的票据识别 Agent。进一步，我们还会基于多 Agent 协作，实现对发票完整性、格式、金额计算和业务规则的全流程智能校验，并给出可落地的工程代码示例。

2025-12-01 14:51:12 451

原创 LangChain1.0 搭建法务合同审核 Agent（附源码）

本文介绍了基于LangChain 1.0的OCR+RAG技术搭建法务合同审核Agent的方案。针对合同、标书等长文档审核场景，对比分析了OCR+RAG与视觉语言模型(VLM)的技术路线，指出OCR方案在成本、精度定位、表格处理等方面的优势。核心实现了PDF解析与坐标提取功能，通过MinerU API获取文本内容及其精确坐标，并采用智能切分策略保留坐标信息，为后续合同条款审核提供可追溯的定位支持。该系统可精准识别文档问题并标注具体位置，适合法务场景的严格格式要求。

2025-12-01 13:21:44 778

原创霸榜第一！DeepSeekMath-V2 首创自验证数学推理训练详解！

本文深度拆解DeepSeekMath-V2背后的核心技术——自验证数学推理训练，看它如何以1/1000的算力通过“左右互搏”实现数学能力的指数级进化。

2025-11-28 11:52:19 1073 1

原创 LiteLLM + OpenRouter 打通 Nano Banana Pro：从 0 到 1 搭建私有文生图设计系统（附源码）

本文介绍了一套低成本、国内直连的实战方案，利用 LiteLLM + OpenRouter 技术组合，打通了 Google 最新的 Nano Banana Pro (Gemini 3 Pro) 图像生成模型。文章旨在指导开发者从零开始，搭建一个完全私有化部署的 AI 设计系统，实现高质量的文生图、图生图及多图编辑功能，并附赠完整的全栈源代码供参考学习。

2025-11-27 16:03:35 841

原创文档审核 Agent 技术揭秘：让AI成为你的专业审核员

合同审核耗时数小时，AI只需几秒钟，成本降低99.97%！文档审核类Agent正在颠覆法务、财务等专业领域的工作方式。本文深度拆解大模型Agent如何实现"自主推理+工具调用+知识检索"，让你彻底搞懂从票据到合同的智能审核原理。

2025-11-26 18:22:52 1088

原创白嫖 NanoBananaPro：国内免费体验与 API 接入全指南

本文整理了在国内无需翻墙即可在线免费体验 NanoBananaPro 的多个网站，并介绍了通过 OpenRouter 与 GRS AI Dashboard 两个支持国内支付的中转平台调用NanoBananaPro API示例

2025-11-25 14:27:59 3336

原创不会编程也能做AI产品：Coze多模态应用从0到1实战

不会编程也能做出真正能落地的 AI 产品——这篇文章将带你从 0 到 1，实战构建一个可执行、可交付的 Coze 多模态应用。通过真实案例与完整实践流程，你将看到一个人如何用 Coze 做出过去需要 5 人团队才能完成的 AI 自动化能力。

2025-11-24 15:52:30 1023

原创用 Coze 10 分钟构建一个多模态视频应用

Coze是一个多模态AI应用开发平台，整合了模型能力、工作流、Agent和API工具，支持零代码构建智能应用。相比Dify和n8n，Coze特别适合多模态内容生成场景，如图文转视频、智能创作等。平台提供可视化工作流编排，支持企业系统对接和流程审计，通过模板生态降低开发门槛。文章通过注册演示、工作流构建和视频案例，展示了如何快速搭建视频生成应用，实现从创意到成品的自动化流程。

2025-11-24 14:36:33 707

原创 Nano Banana Pro 零门槛上手+7类核心玩法教程

Nano Banana Pro正式发布！零门槛上手与7类核心玩法+提示词介绍详解，快速上手AI生图旗舰模型！

2025-11-22 13:32:55 1010

原创 Gemini 3.0深度解读+上手指南！一句话复刻操作系统，Agentic Coding 实战全记录

Gemini 3.0 正式发布！在编程、推理、对话、视觉等核心维度全面碾压 GPT-5.1 和 Claude-4.5，被谷歌称为“AI 梦工厂”。这一代不仅性能拉满，还带来了 Antigravity Agent 优先 IDE、Agentic Coding 主动代理模式，甚至能用一句 Prompt“复刻”一个类 macOS WebOS。本文从模型能力、实测案例到上手路径，一文带你看懂 Gemini 3.0 为什么配得上“新王登基”。

2025-11-19 18:46:48 1560

原创强化学习（RL）实战：DPO RL 大幅提升 Agent Function-Calling 能力

本文介绍了使用强化学习中的DPO算法来提升AI Agent工具调用能力的实战方法。主要内容包括：1）记录Agent调用过程获取原始数据；2）通过AutoToolDPO自动生成DPO微调数据集，解决人工标注成本高的问题；3）使用LLaMA Factory进行模型微调。项目提供完整代码，可高效生成符合DPO格式的训练数据，显著提升Agent在工具选择、参数拼接和多轮对话中的准确性。

2025-11-19 09:00:00 1637

原创一文搞懂 Agent、Function Calling 与强化学习

本篇系统讲解 Agent、Function Calling 与强化学习是什么、以及三者如何协同，让大模型从被动工具进化为能自主完成任务、自我学习进化的智能体。

2025-11-18 11:32:04 1031

原创 Agent RL 智能体强化学习实战（附源码）

本文介绍了基于Agent-Lightning框架的SQL-Agent强化学习实战方法。项目采用运行与训练分离的架构设计，通过LangGraph实现SQL Agent的运行逻辑，记录自然语言到SQL转换的完整轨迹。训练模块利用veRL框架和GRPO算法，根据执行结果自动优化模型策略，形成"执行-反馈-优化"的闭环训练流程。实验在H800显卡上进行，通过Agent-Lightning封装实现了轨迹采集、奖励传递和标准化接口，使系统具备扩展性。该方法不仅适用于SQL任务，也可推广到其他Agen

2025-11-17 14:01:05 774

原创 Agentic RL实战：打造自主学习自主迭代的高性能 Agent

微软Agent-Lightning框架提供了一种端到端的Agentic RL解决方案，支持强化学习、自动提示优化和监督式微调等算法。该框架具有与框架无关、最小侵入、灵活部署等特点，通过解耦架构实现算法与运行器的高效协同。本文详细介绍了基于LangGraph的SQL-Agent强化学习微调流程，采用"运行与训练分离"的设计思想，运行模块负责Agent执行逻辑，训练模块基于veRL框架进行策略优化。重点阐述了LangGraph的工作流图设计、Agent-Lightning的封装机制以及GRP

2025-11-13 09:00:00 1001

原创五分钟带你了解 AI 网关：Agent 与模型间的桥梁

Higress AI网关构建了AI模型与Agent间的桥梁，提供四大核心能力：1）令牌限流实现Token级配额管理；2）多模型代理统一协议并支持故障降级；3）内容安全实现请求脱敏与响应审查；4）语义缓存降低响应时延与成本。同时支持MCP市场化能力，包括将REST API转换为MCP Server及统一托管服务。文章还针对外部API服务、企业知识助手和Agent工具接入三大场景给出实践建议，帮助用户快速落地应用。Higress整合了网关基础能力与AI专属功能，为AI应用提供安全、稳定、高效的运行环境。

2025-11-12 17:59:10 686

原创 Agentic RL详解：打造自主学习自主迭代的高性能 Agent

强化学习（Reinforcement Learning，简称 RL）是一类机器学习范式，其核心思想是：智能体（Agent）在环境（Environment）中反复执行动作（Action），通过观察环境状态（State）和获得奖励（Reward）来调整行为策略（Policy），从而在长期运行中最大化累积奖励。状态 (State)：智能体所处环境的当前观测，例如屏幕画面、传感器数据、对话上下文等。动作 (Action)

2025-11-12 16:02:01 634

原创 Agent RL 速览 — 打造自主学习的 Agent

摘要：在大模型时代，强化学习（RL）已成为提升智能体（Agent）系统性能的关键技术。Agent RL通过优化智能体在动态环境中的自主行动、工具调用和任务执行能力，显著区别于传统LLM的文本生成优化。主流的Agent RL框架包括ART（专注于单Agent任务执行，支持GRPO等算法）和Microsoft Agent-Lightning（面向多Agent协作的企业级平台，支持PPO等算法）。两者分别适用于不同场景，共同推动智能体在自动化流程、对话系统等领域的应用。

2025-11-12 16:00:32 1264

原创 RocketMQ For AI：多智能体异步通信新方案

摘要：RocketMQ推出LiteTopic特性，专为AI场景设计的多智能体异步通信架构。LiteTopic支持轻量级动态创建、自动生命周期管理和高性能订阅，解决AI应用中的长耗时任务阻塞和会话连续性挑战。其核心优势包括排他消费、顺序性保障和百万级轻量级主题支持，已在阿里云RocketMQ 5.x实例部署并提交至开源社区。典型应用场景包括Multi-Agent异步通信（实现任务并行调度与结果异步回传）和分布式会话状态管理（确保断线续传避免任务重复）。该方案显著提升了AI应用的可靠性和资源利用率。

2025-11-11 15:14:38 590

原创谁是OCR王者？MinerU、PaddleOCR、DeepSeek-OCR 实测对比，集成一个多模态PDF解析系统

本文对比评测了三款主流OCR工具（MinerU、PaddleOCR、DeepSeek-OCR）的技术架构与性能表现。测试显示，DeepSeek-OCR在复杂文档识别准确率（97%）和处理速度（100页/8分钟）领先，PaddleOCR轻量化优势突出（国产硬件支持），MinerU擅长干扰信息过滤。文章还提出基于vLLM框架的多模态数据分析系统方案，整合三款OCR工具的优势功能，并计划开源该系统实现本地部署需求。完整资料可通过社区链接获取，助力企业级OCR技术落地应用。

2025-11-10 18:41:29 970

原创 Langchain1.0实战：OCR 多模态PDF解析系统（集成MinerU、DeepSeek-OCR、PaddleOCR）

本篇文章系统梳理了企业级常用的三类多模态 OCR 工具 —— MinerU、PaddleOCR-VL、DeepSeek-OCR，并从场景适配角度分析了它们各自的技术侧重点与应用价值。文章以实战为导向，展示如何将三大 OCR 解析引擎通过 vLLM 推理框架部署为独立服务，并进一步构建一个可统一调用的多模态解析系统

2025-11-09 17:26:29 1541

原创 TEN 框架：轻松实现与 AI 实时语音对话

TEN框架是一个开源的实时多模态交互框架，专注于低延时语音对话体验。它支持语音、视频、图像和文本的智能体开发，具有插件化、跨语言和可视化编排等特性。框架通过流式处理、并行执行和零拷贝技术实现百毫秒级响应，内置VAD和打断功能确保自然对话体验。应用场景涵盖智能家居、同声传译、虚拟形象等。开发者可通过简单示例快速构建实时语音助手，支持多平台部署和边云协同。TEN框架降低了构建"能听会说"智能体的技术门槛，是实时交互应用的理想基础设施。

2025-11-07 16:55:28 679

原创 LangChain 1.0 实战： NL2SQL 数据分析 Agent（附源码）

NL2SQL的概念与价值，覆盖数据自助分析、智能报表与运营分析等典型应用场景。对比多款热门开源产品（Vanna、DB-GPT、PandasAI等），总结各自定位、优势与局限。提供基于LangChain 1.0的完整NL2SQL数据分析Agent实现方案，包含前后端架构、CSV→SQLite转换与API接口设计。面向企业级数据应用，强调Agent化查询、流式响应与自动可视化的落地能力。

2025-11-07 15:01:09 1175

原创建议你上手试试，搭一下这个多模态RAG系统（附源码+教学）

摘要：本文介绍了一种基于多模态RAG技术的专业文档解析方案，针对PDF、CAD图纸等复杂文档的三大识别难点（图表识别、复杂检索、混合语义）提出解决方案。系统采用模态归一化技术，将所有非文本信息转化为文本表示，通过预训练模型实现智能问答。文章详细解析了从VLM模型接入到智能问答的五步实现流程，并开源了完整代码及教学资源。该方案具有架构简单、成本低廉的特点，适合企业级应用场景。

2025-11-06 22:06:30 848

原创国产开源！PaddleOCR多模态RAG问答系统（已落地），速速收藏备用。

摘要：PaddleOCR-MultiRAG开源项目突破传统RAG技术局限，实现复杂文档智能处理。项目采用PaddleOCR引擎，不仅能提取普通文本，还能精准解析扫描件、图片、表格等非结构化数据，将其转换为结构化格式。相比传统方案，该项目创新性地实现了文档解构而非简单提取，特别适合金融、医疗等行业处理合同、财报等复杂文档。作为稀缺的"结构化RAG"解决方案，它填补了OCR与RAG整合的技术空白，为企业数字化转型提供了重要工具。项目提供完整源码及配套资源，已收录至大模型技术社区。

2025-11-05 17:46:42 379

原创 LangChain 1.0 入门实战教学：Agent开发流程

LangChain 1.0 Agent开发摘要 LangChain 1.0引入了革命性的create_agent()API，将Agent从简单的模型调用器升级为具备决策与执行能力的智能运行体。新版本通过统一API接口简化了开发流程，取代了0.x时代的碎片化设计。核心优势包括： LangGraph驱动：底层采用LangGraph作为执行引擎，使Agent具备生命周期管理和节点化执行能力三大核心组件：模型（决策推理）、工具（功能扩展）和中间件（逻辑拦截）构成完整体系灵活扩展性：支持静态/动态模型切换，内置丰

2025-11-05 14:38:01 1039

原创 LangChain 1.0 全面进化指南

LangChain 1.0 不再只是一个“链式拼装库”，而是迈入 Agent Runtime 时代。本文深度剖析它与 LangGraph 的协同机制、三大核心革新与中间件体系，带你看懂这场从理念到工程的全面重构，理解它为何将成为 AI Agent 开发的新基座。

2025-11-05 12:19:45 1041

原创 DeepSeek-OCR 多模态数据分析实战：一键从 PDF 到可视化大屏

在数据驱动的时代，文档早已不只是文字。本文将带你从零搭建一个 DeepSeek-OCR 驱动的多模态数据分析 Agent，实现从 PDF → 结构化数据 → 可视化大屏的一键自动化流程。我们将结合 DeepSeek-OCR + vLLM 推理加速 + LangChain 1.0 工作流编排，彻底打通 “图像识别 → 文本解析 → 指标抽取 → 交互式报告生成” 的全链路，助你高效解析财报、科研论文、合同扫描件等复杂文件。开箱即用的源码与部署教程均已开放，助你快速构建属于自己的智能数据分析系统。

2025-10-31 15:28:22 795

原创 DeepSeek-OCR-Web项目已开源！零门槛一键部署+网页端一键OCR应用！

DeepSeek-OCR近期开源并推出配套Web工具，实现一键部署和多模态OCR功能。该项目提供懒人安装包（install.sh）和网页端调用脚本（start.sh），支持20分钟内完成环境配置。用户可通过浏览器上传PDF/图片文件，使用提示词控制解析模式，如将图表还原为数据表格或进行语义解读。该工具支持100+语言识别、复杂表格解析、PDF转Markdown等功能，需7G显存。项目源码已开源，配套社区提供技术支持和进阶教程。

2025-10-28 15:45:26 1488 2

原创发现一个超神的Github开源OCR项目，国产多模态杀疯了

DeepSeek-OCR开源项目推出了一键式Web部署工具DeepSeek-OCR-Web，显著提升了模型使用便利性。该工具提供懒人安装包和网页端操作界面，仅需两条命令即可完成环境配置和模型启动，支持文件上传、OCR解析及结果查看下载等功能。特别展示了模型对数据可视化图片的智能解析能力，可将图表转化为Markdown表格。项目要求7G以上显存，安装约需20分钟，支持多语言识别、复杂表格解析及PDF转Markdown等高级功能。研发团队开源了完整项目代码，并邀请用户加入技术社区学习更多应用技巧。

2025-10-27 18:00:21 942

原创企业级多模态RAG系统开发实战

本文介绍了基于PaddleOCR-VL的多模态AgenticRAG智能问答系统的构建方法。该系统支持复杂PDF、图片、表格等格式的智能分析和溯源问答，适用于企业文档管理、教育培训和科研学术等场景。文章详细解析了系统核心模块，包括OCR服务实现、差异化分块策略、元数据增强和溯源机制，并提供了项目架构说明。系统通过多模态处理、精准分块和结构化元数据，实现高效检索和可视化溯源能力，为各种文档智能处理需求提供解决方案。

2025-10-24 16:33:30 1422 4

原创榜单第一！PaddleOCR-VL多模态文档解析王者本地部署实战指南

PaddleOCR-VL是百度推出的多模态文档解析模型，采用视觉-语言模型架构，在文档解析任务中表现优异。本教程详细介绍了其本地部署流程，包括硬件要求、环境准备、PaddlePaddle框架安装、模型下载与验证等关键步骤。该系统通过两阶段工作流程（布局分析和元素识别）实现高效文档解析，支持输出结构化Markdown或JSON格式。部署测试表明，该方案在A100 GPU上能达到1.22页/秒的吞吐量，比同类方案快15.8%，显存占用减少40%。教程提供了完整的代码示例和注意事项，适合开发者快速实现本地部署。

2025-10-24 16:07:05 4046

原创 10分钟带你上手 DeepSeek 最新 OCR模型 DeepSeek-OCR

DeepSeek-OCR是一款突破性的开源OCR模型，通过创新性的视觉语义压缩，具备3B参数量却能在A100单卡实现2500 tokens/s的推理速度。作为OCR 2.0代表，它不仅能识别文字，还能理解文档结构、解析图表表格、生成图片描述，并支持目标检测和Markdown转换。其核心创新是"上下文光学压缩"技术，通过视觉语义压缩显著减少视觉token数量，实现最高20倍压缩比仍保持60%准确率。项目提供完整开源资源，包括权重、脚本和技术报告，为多模态RAG系统提供轻量高效的解决方案。

2025-10-23 17:04:55 3941 2

原创 OCR 2.0时代：从字符识别到多模态智能理解的技术革命

随着Transformer架构和多模态技术的兴起，OCR 2.0时代实现了文档版面分析和结构化理解。当前，以GPT-4V、Gemini等为代表的多模态大模型(VLM)通过视觉编码、语言编码和图文对齐三大核心技术，实现了真正的"图文双理解"。文章详细解析了VLM的三种典型对齐方式及其代表模型，展示了OCR技术从"识字"到"理解世界"的革命性转变。

2025-10-23 16:20:25 1312

原创 Browser-Use 打造可操作浏览器的 AI 智能体

Browser-Use是一个Python工具，让大模型能与真实浏览器交互，实现网页自动化操作。它支持原生浏览器控制、与大模型深度集成，具有模块化设计特性。主要应用场景包括智能广告生成、QA测试和新闻监控等。安装简单，支持虚拟环境和MCP服务器模式，可快速构建定制化应用。通过结合大模型能力，Browser-Use扩展了AI在Web环境中的实际应用。

2025-10-21 15:45:16 945

原创多模态RAG实战：从CAD图纸到智能问答

本文介绍了一个基于多模态RAG的CAD图纸智能问答系统，该系统通过结合视觉语言模型(VLM)和检索增强生成技术，实现了对CAD图纸的智能解析与问答功能。系统采用模块化架构，核心技术包括：接入VLM模型解析CAD图像、提取结构化元数据、存入向量数据库、实现智能问答和图像检索。该系统可应用于房地产销售、室内设计等场景，解决传统图纸管理中的检索效率低、信息孤岛等问题。文章详细展示了环境配置、VLM模型接入、CAD图纸分析器构建等关键技术实现步骤，并提供了专业提示词模板设计思路，为开发类似多模态智能系统提供了实践参

2025-10-20 14:07:05 691

空空如也

空空如也