- 博客(113)
- 收藏
- 关注
原创 用 Verl 让强化学习飞起来:单卡让 1.5B 模型 数学推理提高 80%(保姆级流程)
Verl框架通过优化强化学习流程实现高效训练,在单卡A800上1.5B模型GSM8K准确率从49%提升至80%。其核心创新包括:采用vLLM加速推理(提速4-6倍)、GRPO算法省去Critic模型(节省30-40%显存)、三模型协作架构。教程涵盖从环境配置到评估部署全流程,重点解决推理慢、显存紧张、调度复杂等痛点。关键注意事项包括:保持训练/验证prompt一致性、合理设置批次参数、准确提取数学答案等。完整实现代码可通过赋范空间获取,适用于快速提升模型数学推理能力。
2025-12-03 14:25:51
469
原创 大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?
大语言模型训练分为预训练、监督微调(SFT)和强化学习(RL)三阶段。SFT虽能让模型掌握基本技能,但存在三大局限:只能模仿无法超越训练数据、标注成本高覆盖面窄、难以定义"优质回答"的软标准。RL通过"试错-反馈"机制,让模型探索更优解,将标注任务从创作转为评判,效率提升10倍,并能学习人类难以言传的偏好。然而大模型RL面临模型体积大、训练速度慢、显存需求高和奖励设计难等挑战。实践证明
2025-12-02 18:54:46
571
原创 仅存活 15 天?DeepSeek 限量版模型 Speciale 上线,测完我沉默了...
DeepSeek 再次刷新纪录!V3.2 正式版与实验性 Speciale 模型同步上线。不仅在编程、数学和 Agent 领域追平 GPT-5 和 Gemini 3.0,更通过“解除思考链限制”探索 AI 推理极限。本文带你拆解背后的 DSA、GRPO 黑科技!大家好,我是me现在的 AI 圈,简直是一天一个样。前两天我们还在惊叹 Gemini 3.0 的跨时代能力,后脚咱们国产的“卷王” DeepSeek 就带着它的新大招杀回来了。
2025-12-02 17:42:16
660
原创 DeepSeek V3.2重磅发布:性能比肩gemini 3.0 Pro,价格不足五分之一!打破垄断,开源界注入强心剂!
DeepSeek V3.2 正式版发布,性能全面对标全球顶尖模型Gemini 3.0 Pro,在数学、编程等领域实现革命性突破。该模型采用创新的DSA注意力机制和GRPU训练框架,显著降低50%以上推理成本,价格仅为竞品的1/4到1/5。其编程能力达到GPT-5水平,支持千行代码生成;Agent能力引入"边思考边调用工具"模式,性能差距缩小至5%以内。同步开源的实验模型V3.2 Speciale专注于复杂问题解决,具备MO金牌级数学能力。作为完全开源的高性价比国产模型,DeepSeek
2025-12-02 11:44:50
597
原创 成本仅8毛,我用Nano Banana Pro搭了一个「无网络限制」的文生图设计系统
先给不熟悉的朋友对齐一下Nano Banana Pro,其实就是 Gemini 3 Pro Image Preview 的代号。别被名字忽悠了,这玩意儿不仅不“Nano”,反而在多模态理解上强得离谱。为什么我要带大家做这个项目?原生多模态理解: 相比于 SD 需要极度精准的 Prompt,Gemini 对自然语言的理解是“降维打击”级别的。成本红利: 接入 OpenRouter 后,它的费率极低。
2025-12-01 18:33:14
624
原创 LangChain 1.0 搭建票据审核Agent(附源码)
本篇将手把手带你用 LangChain 1.0 联合 Qwen3-VL 多模态模型,搭建一个能自动“看懂发票”、输出结构化 JSON 的票据识别 Agent。进一步,我们还会基于多 Agent 协作,实现对发票完整性、格式、金额计算和业务规则的全流程智能校验,并给出可落地的工程代码示例。
2025-12-01 14:51:12
723
原创 LangChain1.0 搭建法务合同审核 Agent(附源码)
本文介绍了基于LangChain 1.0的OCR+RAG技术搭建法务合同审核Agent的方案。针对合同、标书等长文档审核场景,对比分析了OCR+RAG与视觉语言模型(VLM)的技术路线,指出OCR方案在成本、精度定位、表格处理等方面的优势。核心实现了PDF解析与坐标提取功能,通过MinerU API获取文本内容及其精确坐标,并采用智能切分策略保留坐标信息,为后续合同条款审核提供可追溯的定位支持。该系统可精准识别文档问题并标注具体位置,适合法务场景的严格格式要求。
2025-12-01 13:21:44
1019
原创 霸榜第一!DeepSeekMath-V2 首创自验证数学推理训练详解!
本文深度拆解DeepSeekMath-V2背后的核心技术——自验证数学推理训练,看它如何以1/1000的算力通过“左右互搏”实现数学能力的指数级进化。
2025-11-28 11:52:19
1090
1
原创 LiteLLM + OpenRouter 打通 Nano Banana Pro:从 0 到 1 搭建私有文生图设计系统(附源码)
本文介绍了一套低成本、国内直连的实战方案,利用 LiteLLM + OpenRouter 技术组合,打通了 Google 最新的 Nano Banana Pro (Gemini 3 Pro) 图像生成模型。文章旨在指导开发者从零开始,搭建一个完全私有化部署的 AI 设计系统,实现高质量的文生图、图生图及多图编辑功能,并附赠完整的全栈源代码供参考学习。
2025-11-27 16:03:35
862
原创 文档审核 Agent 技术揭秘:让AI成为你的专业审核员
合同审核耗时数小时,AI只需几秒钟,成本降低99.97%!文档审核类Agent正在颠覆法务、财务等专业领域的工作方式。 本文深度拆解大模型Agent如何实现"自主推理+工具调用+知识检索",让你彻底搞懂从票据到合同的智能审核原理。
2025-11-26 18:22:52
1096
原创 白嫖 NanoBananaPro:国内免费体验与 API 接入全指南
本文整理了在国内无需翻墙即可在线免费体验 NanoBananaPro 的多个网站,并介绍了通过 OpenRouter 与 GRS AI Dashboard 两个支持国内支付的中转平台 调用NanoBananaPro API示例
2025-11-25 14:27:59
3801
原创 不会编程也能做AI产品:Coze多模态应用从0到1实战
不会编程也能做出真正能落地的 AI 产品——这篇文章将带你从 0 到 1,实战构建一个可执行、可交付的 Coze 多模态应用。通过真实案例与完整实践流程,你将看到一个人如何用 Coze 做出过去需要 5 人团队才能完成的 AI 自动化能力。
2025-11-24 15:52:30
1026
原创 用 Coze 10 分钟构建一个多模态视频应用
Coze是一个多模态AI应用开发平台,整合了模型能力、工作流、Agent和API工具,支持零代码构建智能应用。相比Dify和n8n,Coze特别适合多模态内容生成场景,如图文转视频、智能创作等。平台提供可视化工作流编排,支持企业系统对接和流程审计,通过模板生态降低开发门槛。文章通过注册演示、工作流构建和视频案例,展示了如何快速搭建视频生成应用,实现从创意到成品的自动化流程。
2025-11-24 14:36:33
709
原创 Nano Banana Pro 零门槛上手+7类核心玩法教程
Nano Banana Pro正式发布!零门槛上手与7类核心玩法+提示词介绍详解,快速上手AI生图旗舰模型!
2025-11-22 13:32:55
1047
原创 Gemini 3.0深度解读+上手指南!一句话复刻操作系统,Agentic Coding 实战全记录
Gemini 3.0 正式发布!在编程、推理、对话、视觉等核心维度全面碾压 GPT-5.1 和 Claude-4.5,被谷歌称为“AI 梦工厂”。这一代不仅性能拉满,还带来了 Antigravity Agent 优先 IDE、Agentic Coding 主动代理模式,甚至能用一句 Prompt“复刻”一个类 macOS WebOS。本文从模型能力、实测案例到上手路径,一文带你看懂 Gemini 3.0 为什么配得上“新王登基”。
2025-11-19 18:46:48
1572
原创 强化学习(RL)实战:DPO RL 大幅提升 Agent Function-Calling 能力
本文介绍了使用强化学习中的DPO算法来提升AI Agent工具调用能力的实战方法。主要内容包括:1)记录Agent调用过程获取原始数据;2)通过AutoToolDPO自动生成DPO微调数据集,解决人工标注成本高的问题;3)使用LLaMA Factory进行模型微调。项目提供完整代码,可高效生成符合DPO格式的训练数据,显著提升Agent在工具选择、参数拼接和多轮对话中的准确性。
2025-11-19 09:00:00
1642
原创 一文搞懂 Agent、Function Calling 与强化学习
本篇系统讲解 Agent、Function Calling 与强化学习是什么、以及三者如何协同,让大模型从被动工具进化为能自主完成任务、自我学习进化的智能体。
2025-11-18 11:32:04
1035
原创 Agent RL 智能体强化学习实战(附源码)
本文介绍了基于Agent-Lightning框架的SQL-Agent强化学习实战方法。项目采用运行与训练分离的架构设计,通过LangGraph实现SQL Agent的运行逻辑,记录自然语言到SQL转换的完整轨迹。训练模块利用veRL框架和GRPO算法,根据执行结果自动优化模型策略,形成"执行-反馈-优化"的闭环训练流程。实验在H800显卡上进行,通过Agent-Lightning封装实现了轨迹采集、奖励传递和标准化接口,使系统具备扩展性。该方法不仅适用于SQL任务,也可推广到其他Agen
2025-11-17 14:01:05
778
原创 Agentic RL实战:打造自主学习自主迭代的高性能 Agent
微软Agent-Lightning框架提供了一种端到端的Agentic RL解决方案,支持强化学习、自动提示优化和监督式微调等算法。该框架具有与框架无关、最小侵入、灵活部署等特点,通过解耦架构实现算法与运行器的高效协同。本文详细介绍了基于LangGraph的SQL-Agent强化学习微调流程,采用"运行与训练分离"的设计思想,运行模块负责Agent执行逻辑,训练模块基于veRL框架进行策略优化。重点阐述了LangGraph的工作流图设计、Agent-Lightning的封装机制以及GRP
2025-11-13 09:00:00
1004
原创 五分钟带你了解 AI 网关:Agent 与模型间的桥梁
Higress AI网关构建了AI模型与Agent间的桥梁,提供四大核心能力:1)令牌限流实现Token级配额管理;2)多模型代理统一协议并支持故障降级;3)内容安全实现请求脱敏与响应审查;4)语义缓存降低响应时延与成本。同时支持MCP市场化能力,包括将REST API转换为MCP Server及统一托管服务。文章还针对外部API服务、企业知识助手和Agent工具接入三大场景给出实践建议,帮助用户快速落地应用。Higress整合了网关基础能力与AI专属功能,为AI应用提供安全、稳定、高效的运行环境。
2025-11-12 17:59:10
692
原创 Agentic RL详解:打造自主学习自主迭代的高性能 Agent
强化学习(Reinforcement Learning,简称 RL)是一类机器学习范式,其核心思想是:智能体(Agent)在环境(Environment)中反复执行动作(Action),通过观察环境状态(State)和获得奖励(Reward)来调整行为策略(Policy),从而在长期运行中最大化累积奖励。状态 (State):智能体所处环境的当前观测,例如屏幕画面、传感器数据、对话上下文等。动作 (Action)
2025-11-12 16:02:01
635
原创 Agent RL 速览 — 打造自主学习的 Agent
摘要:在大模型时代,强化学习(RL)已成为提升智能体(Agent)系统性能的关键技术。Agent RL通过优化智能体在动态环境中的自主行动、工具调用和任务执行能力,显著区别于传统LLM的文本生成优化。主流的Agent RL框架包括ART(专注于单Agent任务执行,支持GRPO等算法)和Microsoft Agent-Lightning(面向多Agent协作的企业级平台,支持PPO等算法)。两者分别适用于不同场景,共同推动智能体在自动化流程、对话系统等领域的应用。
2025-11-12 16:00:32
1269
原创 RocketMQ For AI:多智能体异步通信新方案
摘要:RocketMQ推出LiteTopic特性,专为AI场景设计的多智能体异步通信架构。LiteTopic支持轻量级动态创建、自动生命周期管理和高性能订阅,解决AI应用中的长耗时任务阻塞和会话连续性挑战。其核心优势包括排他消费、顺序性保障和百万级轻量级主题支持,已在阿里云RocketMQ 5.x实例部署并提交至开源社区。典型应用场景包括Multi-Agent异步通信(实现任务并行调度与结果异步回传)和分布式会话状态管理(确保断线续传避免任务重复)。该方案显著提升了AI应用的可靠性和资源利用率。
2025-11-11 15:14:38
590
原创 谁是OCR王者?MinerU、PaddleOCR、DeepSeek-OCR 实测对比,集成一个多模态PDF解析系统
本文对比评测了三款主流OCR工具(MinerU、PaddleOCR、DeepSeek-OCR)的技术架构与性能表现。测试显示,DeepSeek-OCR在复杂文档识别准确率(97%)和处理速度(100页/8分钟)领先,PaddleOCR轻量化优势突出(国产硬件支持),MinerU擅长干扰信息过滤。文章还提出基于vLLM框架的多模态数据分析系统方案,整合三款OCR工具的优势功能,并计划开源该系统实现本地部署需求。完整资料可通过社区链接获取,助力企业级OCR技术落地应用。
2025-11-10 18:41:29
980
原创 Langchain1.0实战:OCR 多模态PDF解析系统(集成MinerU、DeepSeek-OCR、PaddleOCR)
本篇文章系统梳理了企业级常用的三类多模态 OCR 工具 —— MinerU、PaddleOCR-VL、DeepSeek-OCR,并从场景适配角度分析了它们各自的技术侧重点与应用价值。文章以实战为导向,展示如何将三大 OCR 解析引擎通过 vLLM 推理框架部署为独立服务,并进一步构建一个可统一调用的多模态解析系统
2025-11-09 17:26:29
1562
原创 TEN 框架:轻松实现与 AI 实时语音对话
TEN框架是一个开源的实时多模态交互框架,专注于低延时语音对话体验。它支持语音、视频、图像和文本的智能体开发,具有插件化、跨语言和可视化编排等特性。框架通过流式处理、并行执行和零拷贝技术实现百毫秒级响应,内置VAD和打断功能确保自然对话体验。应用场景涵盖智能家居、同声传译、虚拟形象等。开发者可通过简单示例快速构建实时语音助手,支持多平台部署和边云协同。TEN框架降低了构建"能听会说"智能体的技术门槛,是实时交互应用的理想基础设施。
2025-11-07 16:55:28
680
原创 LangChain 1.0 实战: NL2SQL 数据分析 Agent(附源码)
NL2SQL的概念与价值,覆盖数据自助分析、智能报表与运营分析等典型应用场景。对比多款热门开源产品(Vanna、DB-GPT、PandasAI等),总结各自定位、优势与局限。提供基于LangChain 1.0的完整NL2SQL数据分析Agent实现方案,包含前后端架构、CSV→SQLite转换与API接口设计。面向企业级数据应用,强调Agent化查询、流式响应与自动可视化的落地能力。
2025-11-07 15:01:09
1186
原创 建议你上手试试,搭一下这个多模态RAG系统(附源码+教学)
摘要:本文介绍了一种基于多模态RAG技术的专业文档解析方案,针对PDF、CAD图纸等复杂文档的三大识别难点(图表识别、复杂检索、混合语义)提出解决方案。系统采用模态归一化技术,将所有非文本信息转化为文本表示,通过预训练模型实现智能问答。文章详细解析了从VLM模型接入到智能问答的五步实现流程,并开源了完整代码及教学资源。该方案具有架构简单、成本低廉的特点,适合企业级应用场景。
2025-11-06 22:06:30
850
原创 国产开源!PaddleOCR多模态RAG问答系统(已落地),速速收藏备用。
摘要:PaddleOCR-MultiRAG开源项目突破传统RAG技术局限,实现复杂文档智能处理。项目采用PaddleOCR引擎,不仅能提取普通文本,还能精准解析扫描件、图片、表格等非结构化数据,将其转换为结构化格式。相比传统方案,该项目创新性地实现了文档解构而非简单提取,特别适合金融、医疗等行业处理合同、财报等复杂文档。作为稀缺的"结构化RAG"解决方案,它填补了OCR与RAG整合的技术空白,为企业数字化转型提供了重要工具。项目提供完整源码及配套资源,已收录至大模型技术社区。
2025-11-05 17:46:42
381
原创 LangChain 1.0 入门实战教学:Agent开发流程
LangChain 1.0 Agent开发摘要 LangChain 1.0引入了革命性的create_agent()API,将Agent从简单的模型调用器升级为具备决策与执行能力的智能运行体。新版本通过统一API接口简化了开发流程,取代了0.x时代的碎片化设计。核心优势包括: LangGraph驱动:底层采用LangGraph作为执行引擎,使Agent具备生命周期管理和节点化执行能力 三大核心组件:模型(决策推理)、工具(功能扩展)和中间件(逻辑拦截)构成完整体系 灵活扩展性:支持静态/动态模型切换,内置丰
2025-11-05 14:38:01
1047
原创 LangChain 1.0 全面进化指南
LangChain 1.0 不再只是一个“链式拼装库”,而是迈入 Agent Runtime 时代。本文深度剖析它与 LangGraph 的协同机制、三大核心革新与中间件体系,带你看懂这场从理念到工程的全面重构,理解它为何将成为 AI Agent 开发的新基座。
2025-11-05 12:19:45
1052
原创 DeepSeek-OCR 多模态数据分析实战:一键从 PDF 到 可视化大屏
在数据驱动的时代,文档早已不只是文字。本文将带你从零搭建一个 DeepSeek-OCR 驱动的多模态数据分析 Agent,实现从 PDF → 结构化数据 → 可视化大屏 的一键自动化流程。我们将结合 DeepSeek-OCR + vLLM 推理加速 + LangChain 1.0 工作流编排,彻底打通 “图像识别 → 文本解析 → 指标抽取 → 交互式报告生成” 的全链路,助你高效解析财报、科研论文、合同扫描件等复杂文件。开箱即用的源码与部署教程均已开放,助你快速构建属于自己的智能数据分析系统。
2025-10-31 15:28:22
801
原创 DeepSeek-OCR-Web项目已开源!零门槛一键部署+网页端一键OCR应用!
DeepSeek-OCR近期开源并推出配套Web工具,实现一键部署和多模态OCR功能。该项目提供懒人安装包(install.sh)和网页端调用脚本(start.sh),支持20分钟内完成环境配置。用户可通过浏览器上传PDF/图片文件,使用提示词控制解析模式,如将图表还原为数据表格或进行语义解读。该工具支持100+语言识别、复杂表格解析、PDF转Markdown等功能,需7G显存。项目源码已开源,配套社区提供技术支持和进阶教程。
2025-10-28 15:45:26
1502
2
原创 发现一个超神的Github开源OCR项目,国产多模态杀疯了
DeepSeek-OCR开源项目推出了一键式Web部署工具DeepSeek-OCR-Web,显著提升了模型使用便利性。该工具提供懒人安装包和网页端操作界面,仅需两条命令即可完成环境配置和模型启动,支持文件上传、OCR解析及结果查看下载等功能。特别展示了模型对数据可视化图片的智能解析能力,可将图表转化为Markdown表格。项目要求7G以上显存,安装约需20分钟,支持多语言识别、复杂表格解析及PDF转Markdown等高级功能。研发团队开源了完整项目代码,并邀请用户加入技术社区学习更多应用技巧。
2025-10-27 18:00:21
947
原创 企业级多模态RAG系统开发实战
本文介绍了基于PaddleOCR-VL的多模态AgenticRAG智能问答系统的构建方法。该系统支持复杂PDF、图片、表格等格式的智能分析和溯源问答,适用于企业文档管理、教育培训和科研学术等场景。文章详细解析了系统核心模块,包括OCR服务实现、差异化分块策略、元数据增强和溯源机制,并提供了项目架构说明。系统通过多模态处理、精准分块和结构化元数据,实现高效检索和可视化溯源能力,为各种文档智能处理需求提供解决方案。
2025-10-24 16:33:30
1430
4
原创 榜单第一!PaddleOCR-VL多模态文档解析王者本地部署实战指南
PaddleOCR-VL是百度推出的多模态文档解析模型,采用视觉-语言模型架构,在文档解析任务中表现优异。本教程详细介绍了其本地部署流程,包括硬件要求、环境准备、PaddlePaddle框架安装、模型下载与验证等关键步骤。该系统通过两阶段工作流程(布局分析和元素识别)实现高效文档解析,支持输出结构化Markdown或JSON格式。部署测试表明,该方案在A100 GPU上能达到1.22页/秒的吞吐量,比同类方案快15.8%,显存占用减少40%。教程提供了完整的代码示例和注意事项,适合开发者快速实现本地部署。
2025-10-24 16:07:05
4153
原创 10分钟带你上手 DeepSeek 最新 OCR模型 DeepSeek-OCR
DeepSeek-OCR是一款突破性的开源OCR模型,通过创新性的视觉语义压缩,具备3B参数量却能在A100单卡实现2500 tokens/s的推理速度。作为OCR 2.0代表,它不仅能识别文字,还能理解文档结构、解析图表表格、生成图片描述,并支持目标检测和Markdown转换。其核心创新是"上下文光学压缩"技术,通过视觉语义压缩显著减少视觉token数量,实现最高20倍压缩比仍保持60%准确率。项目提供完整开源资源,包括权重、脚本和技术报告,为多模态RAG系统提供轻量高效的解决方案。
2025-10-23 17:04:55
4000
2
原创 OCR 2.0时代:从字符识别到多模态智能理解的技术革命
随着Transformer架构和多模态技术的兴起,OCR 2.0时代实现了文档版面分析和结构化理解。当前,以GPT-4V、Gemini等为代表的多模态大模型(VLM)通过视觉编码、语言编码和图文对齐三大核心技术,实现了真正的"图文双理解"。文章详细解析了VLM的三种典型对齐方式及其代表模型,展示了OCR技术从"识字"到"理解世界"的革命性转变。
2025-10-23 16:20:25
1329
原创 Browser-Use 打造可操作浏览器的 AI 智能体
Browser-Use是一个Python工具,让大模型能与真实浏览器交互,实现网页自动化操作。它支持原生浏览器控制、与大模型深度集成,具有模块化设计特性。主要应用场景包括智能广告生成、QA测试和新闻监控等。安装简单,支持虚拟环境和MCP服务器模式,可快速构建定制化应用。通过结合大模型能力,Browser-Use扩展了AI在Web环境中的实际应用。
2025-10-21 15:45:16
948
原创 多模态RAG实战:从CAD图纸到智能问答
本文介绍了一个基于多模态RAG的CAD图纸智能问答系统,该系统通过结合视觉语言模型(VLM)和检索增强生成技术,实现了对CAD图纸的智能解析与问答功能。系统采用模块化架构,核心技术包括:接入VLM模型解析CAD图像、提取结构化元数据、存入向量数据库、实现智能问答和图像检索。该系统可应用于房地产销售、室内设计等场景,解决传统图纸管理中的检索效率低、信息孤岛等问题。文章详细展示了环境配置、VLM模型接入、CAD图纸分析器构建等关键技术实现步骤,并提供了专业提示词模板设计思路,为开发类似多模态智能系统提供了实践参
2025-10-20 14:07:05
695
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅