- 博客(109)
- 收藏
- 关注
原创 DeepSeek V3.2重磅发布:性能比肩gemini 3.0 Pro,价格不足五分之一!打破垄断,开源界注入强心剂!
DeepSeek V3.2 正式版发布,性能全面对标全球顶尖模型Gemini 3.0 Pro,在数学、编程等领域实现革命性突破。该模型采用创新的DSA注意力机制和GRPU训练框架,显著降低50%以上推理成本,价格仅为竞品的1/4到1/5。其编程能力达到GPT-5水平,支持千行代码生成;Agent能力引入"边思考边调用工具"模式,性能差距缩小至5%以内。同步开源的实验模型V3.2 Speciale专注于复杂问题解决,具备MO金牌级数学能力。作为完全开源的高性价比国产模型,DeepSeek
2025-12-02 11:44:50
234
原创 LangChain 1.0 搭建票据审核Agent(附源码)
本篇将手把手带你用 LangChain 1.0 联合 Qwen3-VL 多模态模型,搭建一个能自动“看懂发票”、输出结构化 JSON 的票据识别 Agent。进一步,我们还会基于多 Agent 协作,实现对发票完整性、格式、金额计算和业务规则的全流程智能校验,并给出可落地的工程代码示例。
2025-12-01 14:51:12
451
原创 LangChain1.0 搭建法务合同审核 Agent(附源码)
本文介绍了基于LangChain 1.0的OCR+RAG技术搭建法务合同审核Agent的方案。针对合同、标书等长文档审核场景,对比分析了OCR+RAG与视觉语言模型(VLM)的技术路线,指出OCR方案在成本、精度定位、表格处理等方面的优势。核心实现了PDF解析与坐标提取功能,通过MinerU API获取文本内容及其精确坐标,并采用智能切分策略保留坐标信息,为后续合同条款审核提供可追溯的定位支持。该系统可精准识别文档问题并标注具体位置,适合法务场景的严格格式要求。
2025-12-01 13:21:44
778
原创 霸榜第一!DeepSeekMath-V2 首创自验证数学推理训练详解!
本文深度拆解DeepSeekMath-V2背后的核心技术——自验证数学推理训练,看它如何以1/1000的算力通过“左右互搏”实现数学能力的指数级进化。
2025-11-28 11:52:19
1073
1
原创 LiteLLM + OpenRouter 打通 Nano Banana Pro:从 0 到 1 搭建私有文生图设计系统(附源码)
本文介绍了一套低成本、国内直连的实战方案,利用 LiteLLM + OpenRouter 技术组合,打通了 Google 最新的 Nano Banana Pro (Gemini 3 Pro) 图像生成模型。文章旨在指导开发者从零开始,搭建一个完全私有化部署的 AI 设计系统,实现高质量的文生图、图生图及多图编辑功能,并附赠完整的全栈源代码供参考学习。
2025-11-27 16:03:35
841
原创 文档审核 Agent 技术揭秘:让AI成为你的专业审核员
合同审核耗时数小时,AI只需几秒钟,成本降低99.97%!文档审核类Agent正在颠覆法务、财务等专业领域的工作方式。 本文深度拆解大模型Agent如何实现"自主推理+工具调用+知识检索",让你彻底搞懂从票据到合同的智能审核原理。
2025-11-26 18:22:52
1088
原创 白嫖 NanoBananaPro:国内免费体验与 API 接入全指南
本文整理了在国内无需翻墙即可在线免费体验 NanoBananaPro 的多个网站,并介绍了通过 OpenRouter 与 GRS AI Dashboard 两个支持国内支付的中转平台 调用NanoBananaPro API示例
2025-11-25 14:27:59
3336
原创 不会编程也能做AI产品:Coze多模态应用从0到1实战
不会编程也能做出真正能落地的 AI 产品——这篇文章将带你从 0 到 1,实战构建一个可执行、可交付的 Coze 多模态应用。通过真实案例与完整实践流程,你将看到一个人如何用 Coze 做出过去需要 5 人团队才能完成的 AI 自动化能力。
2025-11-24 15:52:30
1023
原创 用 Coze 10 分钟构建一个多模态视频应用
Coze是一个多模态AI应用开发平台,整合了模型能力、工作流、Agent和API工具,支持零代码构建智能应用。相比Dify和n8n,Coze特别适合多模态内容生成场景,如图文转视频、智能创作等。平台提供可视化工作流编排,支持企业系统对接和流程审计,通过模板生态降低开发门槛。文章通过注册演示、工作流构建和视频案例,展示了如何快速搭建视频生成应用,实现从创意到成品的自动化流程。
2025-11-24 14:36:33
707
原创 Nano Banana Pro 零门槛上手+7类核心玩法教程
Nano Banana Pro正式发布!零门槛上手与7类核心玩法+提示词介绍详解,快速上手AI生图旗舰模型!
2025-11-22 13:32:55
1010
原创 Gemini 3.0深度解读+上手指南!一句话复刻操作系统,Agentic Coding 实战全记录
Gemini 3.0 正式发布!在编程、推理、对话、视觉等核心维度全面碾压 GPT-5.1 和 Claude-4.5,被谷歌称为“AI 梦工厂”。这一代不仅性能拉满,还带来了 Antigravity Agent 优先 IDE、Agentic Coding 主动代理模式,甚至能用一句 Prompt“复刻”一个类 macOS WebOS。本文从模型能力、实测案例到上手路径,一文带你看懂 Gemini 3.0 为什么配得上“新王登基”。
2025-11-19 18:46:48
1560
原创 强化学习(RL)实战:DPO RL 大幅提升 Agent Function-Calling 能力
本文介绍了使用强化学习中的DPO算法来提升AI Agent工具调用能力的实战方法。主要内容包括:1)记录Agent调用过程获取原始数据;2)通过AutoToolDPO自动生成DPO微调数据集,解决人工标注成本高的问题;3)使用LLaMA Factory进行模型微调。项目提供完整代码,可高效生成符合DPO格式的训练数据,显著提升Agent在工具选择、参数拼接和多轮对话中的准确性。
2025-11-19 09:00:00
1637
原创 一文搞懂 Agent、Function Calling 与强化学习
本篇系统讲解 Agent、Function Calling 与强化学习是什么、以及三者如何协同,让大模型从被动工具进化为能自主完成任务、自我学习进化的智能体。
2025-11-18 11:32:04
1031
原创 Agent RL 智能体强化学习实战(附源码)
本文介绍了基于Agent-Lightning框架的SQL-Agent强化学习实战方法。项目采用运行与训练分离的架构设计,通过LangGraph实现SQL Agent的运行逻辑,记录自然语言到SQL转换的完整轨迹。训练模块利用veRL框架和GRPO算法,根据执行结果自动优化模型策略,形成"执行-反馈-优化"的闭环训练流程。实验在H800显卡上进行,通过Agent-Lightning封装实现了轨迹采集、奖励传递和标准化接口,使系统具备扩展性。该方法不仅适用于SQL任务,也可推广到其他Agen
2025-11-17 14:01:05
774
原创 Agentic RL实战:打造自主学习自主迭代的高性能 Agent
微软Agent-Lightning框架提供了一种端到端的Agentic RL解决方案,支持强化学习、自动提示优化和监督式微调等算法。该框架具有与框架无关、最小侵入、灵活部署等特点,通过解耦架构实现算法与运行器的高效协同。本文详细介绍了基于LangGraph的SQL-Agent强化学习微调流程,采用"运行与训练分离"的设计思想,运行模块负责Agent执行逻辑,训练模块基于veRL框架进行策略优化。重点阐述了LangGraph的工作流图设计、Agent-Lightning的封装机制以及GRP
2025-11-13 09:00:00
1001
原创 五分钟带你了解 AI 网关:Agent 与模型间的桥梁
Higress AI网关构建了AI模型与Agent间的桥梁,提供四大核心能力:1)令牌限流实现Token级配额管理;2)多模型代理统一协议并支持故障降级;3)内容安全实现请求脱敏与响应审查;4)语义缓存降低响应时延与成本。同时支持MCP市场化能力,包括将REST API转换为MCP Server及统一托管服务。文章还针对外部API服务、企业知识助手和Agent工具接入三大场景给出实践建议,帮助用户快速落地应用。Higress整合了网关基础能力与AI专属功能,为AI应用提供安全、稳定、高效的运行环境。
2025-11-12 17:59:10
686
原创 Agentic RL详解:打造自主学习自主迭代的高性能 Agent
强化学习(Reinforcement Learning,简称 RL)是一类机器学习范式,其核心思想是:智能体(Agent)在环境(Environment)中反复执行动作(Action),通过观察环境状态(State)和获得奖励(Reward)来调整行为策略(Policy),从而在长期运行中最大化累积奖励。状态 (State):智能体所处环境的当前观测,例如屏幕画面、传感器数据、对话上下文等。动作 (Action)
2025-11-12 16:02:01
634
原创 Agent RL 速览 — 打造自主学习的 Agent
摘要:在大模型时代,强化学习(RL)已成为提升智能体(Agent)系统性能的关键技术。Agent RL通过优化智能体在动态环境中的自主行动、工具调用和任务执行能力,显著区别于传统LLM的文本生成优化。主流的Agent RL框架包括ART(专注于单Agent任务执行,支持GRPO等算法)和Microsoft Agent-Lightning(面向多Agent协作的企业级平台,支持PPO等算法)。两者分别适用于不同场景,共同推动智能体在自动化流程、对话系统等领域的应用。
2025-11-12 16:00:32
1264
原创 RocketMQ For AI:多智能体异步通信新方案
摘要:RocketMQ推出LiteTopic特性,专为AI场景设计的多智能体异步通信架构。LiteTopic支持轻量级动态创建、自动生命周期管理和高性能订阅,解决AI应用中的长耗时任务阻塞和会话连续性挑战。其核心优势包括排他消费、顺序性保障和百万级轻量级主题支持,已在阿里云RocketMQ 5.x实例部署并提交至开源社区。典型应用场景包括Multi-Agent异步通信(实现任务并行调度与结果异步回传)和分布式会话状态管理(确保断线续传避免任务重复)。该方案显著提升了AI应用的可靠性和资源利用率。
2025-11-11 15:14:38
590
原创 谁是OCR王者?MinerU、PaddleOCR、DeepSeek-OCR 实测对比,集成一个多模态PDF解析系统
本文对比评测了三款主流OCR工具(MinerU、PaddleOCR、DeepSeek-OCR)的技术架构与性能表现。测试显示,DeepSeek-OCR在复杂文档识别准确率(97%)和处理速度(100页/8分钟)领先,PaddleOCR轻量化优势突出(国产硬件支持),MinerU擅长干扰信息过滤。文章还提出基于vLLM框架的多模态数据分析系统方案,整合三款OCR工具的优势功能,并计划开源该系统实现本地部署需求。完整资料可通过社区链接获取,助力企业级OCR技术落地应用。
2025-11-10 18:41:29
970
原创 Langchain1.0实战:OCR 多模态PDF解析系统(集成MinerU、DeepSeek-OCR、PaddleOCR)
本篇文章系统梳理了企业级常用的三类多模态 OCR 工具 —— MinerU、PaddleOCR-VL、DeepSeek-OCR,并从场景适配角度分析了它们各自的技术侧重点与应用价值。文章以实战为导向,展示如何将三大 OCR 解析引擎通过 vLLM 推理框架部署为独立服务,并进一步构建一个可统一调用的多模态解析系统
2025-11-09 17:26:29
1541
原创 TEN 框架:轻松实现与 AI 实时语音对话
TEN框架是一个开源的实时多模态交互框架,专注于低延时语音对话体验。它支持语音、视频、图像和文本的智能体开发,具有插件化、跨语言和可视化编排等特性。框架通过流式处理、并行执行和零拷贝技术实现百毫秒级响应,内置VAD和打断功能确保自然对话体验。应用场景涵盖智能家居、同声传译、虚拟形象等。开发者可通过简单示例快速构建实时语音助手,支持多平台部署和边云协同。TEN框架降低了构建"能听会说"智能体的技术门槛,是实时交互应用的理想基础设施。
2025-11-07 16:55:28
679
原创 LangChain 1.0 实战: NL2SQL 数据分析 Agent(附源码)
NL2SQL的概念与价值,覆盖数据自助分析、智能报表与运营分析等典型应用场景。对比多款热门开源产品(Vanna、DB-GPT、PandasAI等),总结各自定位、优势与局限。提供基于LangChain 1.0的完整NL2SQL数据分析Agent实现方案,包含前后端架构、CSV→SQLite转换与API接口设计。面向企业级数据应用,强调Agent化查询、流式响应与自动可视化的落地能力。
2025-11-07 15:01:09
1175
原创 建议你上手试试,搭一下这个多模态RAG系统(附源码+教学)
摘要:本文介绍了一种基于多模态RAG技术的专业文档解析方案,针对PDF、CAD图纸等复杂文档的三大识别难点(图表识别、复杂检索、混合语义)提出解决方案。系统采用模态归一化技术,将所有非文本信息转化为文本表示,通过预训练模型实现智能问答。文章详细解析了从VLM模型接入到智能问答的五步实现流程,并开源了完整代码及教学资源。该方案具有架构简单、成本低廉的特点,适合企业级应用场景。
2025-11-06 22:06:30
848
原创 国产开源!PaddleOCR多模态RAG问答系统(已落地),速速收藏备用。
摘要:PaddleOCR-MultiRAG开源项目突破传统RAG技术局限,实现复杂文档智能处理。项目采用PaddleOCR引擎,不仅能提取普通文本,还能精准解析扫描件、图片、表格等非结构化数据,将其转换为结构化格式。相比传统方案,该项目创新性地实现了文档解构而非简单提取,特别适合金融、医疗等行业处理合同、财报等复杂文档。作为稀缺的"结构化RAG"解决方案,它填补了OCR与RAG整合的技术空白,为企业数字化转型提供了重要工具。项目提供完整源码及配套资源,已收录至大模型技术社区。
2025-11-05 17:46:42
379
原创 LangChain 1.0 入门实战教学:Agent开发流程
LangChain 1.0 Agent开发摘要 LangChain 1.0引入了革命性的create_agent()API,将Agent从简单的模型调用器升级为具备决策与执行能力的智能运行体。新版本通过统一API接口简化了开发流程,取代了0.x时代的碎片化设计。核心优势包括: LangGraph驱动:底层采用LangGraph作为执行引擎,使Agent具备生命周期管理和节点化执行能力 三大核心组件:模型(决策推理)、工具(功能扩展)和中间件(逻辑拦截)构成完整体系 灵活扩展性:支持静态/动态模型切换,内置丰
2025-11-05 14:38:01
1039
原创 LangChain 1.0 全面进化指南
LangChain 1.0 不再只是一个“链式拼装库”,而是迈入 Agent Runtime 时代。本文深度剖析它与 LangGraph 的协同机制、三大核心革新与中间件体系,带你看懂这场从理念到工程的全面重构,理解它为何将成为 AI Agent 开发的新基座。
2025-11-05 12:19:45
1041
原创 DeepSeek-OCR 多模态数据分析实战:一键从 PDF 到 可视化大屏
在数据驱动的时代,文档早已不只是文字。本文将带你从零搭建一个 DeepSeek-OCR 驱动的多模态数据分析 Agent,实现从 PDF → 结构化数据 → 可视化大屏 的一键自动化流程。我们将结合 DeepSeek-OCR + vLLM 推理加速 + LangChain 1.0 工作流编排,彻底打通 “图像识别 → 文本解析 → 指标抽取 → 交互式报告生成” 的全链路,助你高效解析财报、科研论文、合同扫描件等复杂文件。开箱即用的源码与部署教程均已开放,助你快速构建属于自己的智能数据分析系统。
2025-10-31 15:28:22
795
原创 DeepSeek-OCR-Web项目已开源!零门槛一键部署+网页端一键OCR应用!
DeepSeek-OCR近期开源并推出配套Web工具,实现一键部署和多模态OCR功能。该项目提供懒人安装包(install.sh)和网页端调用脚本(start.sh),支持20分钟内完成环境配置。用户可通过浏览器上传PDF/图片文件,使用提示词控制解析模式,如将图表还原为数据表格或进行语义解读。该工具支持100+语言识别、复杂表格解析、PDF转Markdown等功能,需7G显存。项目源码已开源,配套社区提供技术支持和进阶教程。
2025-10-28 15:45:26
1488
2
原创 发现一个超神的Github开源OCR项目,国产多模态杀疯了
DeepSeek-OCR开源项目推出了一键式Web部署工具DeepSeek-OCR-Web,显著提升了模型使用便利性。该工具提供懒人安装包和网页端操作界面,仅需两条命令即可完成环境配置和模型启动,支持文件上传、OCR解析及结果查看下载等功能。特别展示了模型对数据可视化图片的智能解析能力,可将图表转化为Markdown表格。项目要求7G以上显存,安装约需20分钟,支持多语言识别、复杂表格解析及PDF转Markdown等高级功能。研发团队开源了完整项目代码,并邀请用户加入技术社区学习更多应用技巧。
2025-10-27 18:00:21
942
原创 企业级多模态RAG系统开发实战
本文介绍了基于PaddleOCR-VL的多模态AgenticRAG智能问答系统的构建方法。该系统支持复杂PDF、图片、表格等格式的智能分析和溯源问答,适用于企业文档管理、教育培训和科研学术等场景。文章详细解析了系统核心模块,包括OCR服务实现、差异化分块策略、元数据增强和溯源机制,并提供了项目架构说明。系统通过多模态处理、精准分块和结构化元数据,实现高效检索和可视化溯源能力,为各种文档智能处理需求提供解决方案。
2025-10-24 16:33:30
1422
4
原创 榜单第一!PaddleOCR-VL多模态文档解析王者本地部署实战指南
PaddleOCR-VL是百度推出的多模态文档解析模型,采用视觉-语言模型架构,在文档解析任务中表现优异。本教程详细介绍了其本地部署流程,包括硬件要求、环境准备、PaddlePaddle框架安装、模型下载与验证等关键步骤。该系统通过两阶段工作流程(布局分析和元素识别)实现高效文档解析,支持输出结构化Markdown或JSON格式。部署测试表明,该方案在A100 GPU上能达到1.22页/秒的吞吐量,比同类方案快15.8%,显存占用减少40%。教程提供了完整的代码示例和注意事项,适合开发者快速实现本地部署。
2025-10-24 16:07:05
4046
原创 10分钟带你上手 DeepSeek 最新 OCR模型 DeepSeek-OCR
DeepSeek-OCR是一款突破性的开源OCR模型,通过创新性的视觉语义压缩,具备3B参数量却能在A100单卡实现2500 tokens/s的推理速度。作为OCR 2.0代表,它不仅能识别文字,还能理解文档结构、解析图表表格、生成图片描述,并支持目标检测和Markdown转换。其核心创新是"上下文光学压缩"技术,通过视觉语义压缩显著减少视觉token数量,实现最高20倍压缩比仍保持60%准确率。项目提供完整开源资源,包括权重、脚本和技术报告,为多模态RAG系统提供轻量高效的解决方案。
2025-10-23 17:04:55
3941
2
原创 OCR 2.0时代:从字符识别到多模态智能理解的技术革命
随着Transformer架构和多模态技术的兴起,OCR 2.0时代实现了文档版面分析和结构化理解。当前,以GPT-4V、Gemini等为代表的多模态大模型(VLM)通过视觉编码、语言编码和图文对齐三大核心技术,实现了真正的"图文双理解"。文章详细解析了VLM的三种典型对齐方式及其代表模型,展示了OCR技术从"识字"到"理解世界"的革命性转变。
2025-10-23 16:20:25
1312
原创 Browser-Use 打造可操作浏览器的 AI 智能体
Browser-Use是一个Python工具,让大模型能与真实浏览器交互,实现网页自动化操作。它支持原生浏览器控制、与大模型深度集成,具有模块化设计特性。主要应用场景包括智能广告生成、QA测试和新闻监控等。安装简单,支持虚拟环境和MCP服务器模式,可快速构建定制化应用。通过结合大模型能力,Browser-Use扩展了AI在Web环境中的实际应用。
2025-10-21 15:45:16
945
原创 多模态RAG实战:从CAD图纸到智能问答
本文介绍了一个基于多模态RAG的CAD图纸智能问答系统,该系统通过结合视觉语言模型(VLM)和检索增强生成技术,实现了对CAD图纸的智能解析与问答功能。系统采用模块化架构,核心技术包括:接入VLM模型解析CAD图像、提取结构化元数据、存入向量数据库、实现智能问答和图像检索。该系统可应用于房地产销售、室内设计等场景,解决传统图纸管理中的检索效率低、信息孤岛等问题。文章详细展示了环境配置、VLM模型接入、CAD图纸分析器构建等关键技术实现步骤,并提供了专业提示词模板设计思路,为开发类似多模态智能系统提供了实践参
2025-10-20 14:07:05
691
原创 多模态技术深度解析
随着AI技术发展,多模态RAG系统成为重要方向,但其面临模态异构性、语义对齐等技术挑战。当前主流实现方案包括统一向量空间检索技术(如CLIP模型),通过将不同模态信息映射到同一向量空间实现跨模态检索。这类系统在智能问答、医疗诊断等领域有广泛应用,但仍存在泛化能力不足等问题。技术实现上需要权衡直接解析与检索生成两种路径的优劣,涉及复杂的向量编码和相似度计算过程。未来需要突破多模态融合、质量评估等关键技术瓶颈。
2025-10-20 14:06:44
1016
原创 大模型高效微调unsloth实战
快速进行私有模型微调,主要解决当前大模型微调面临的技术门槛高、资源需求大和缺乏标准化流程三大痛点。项目提出使用Unsloth框架实现低成本高效微调,通过消费级显卡(如RTX 4090)完成专业设备的工作,实现10倍成本降低和3-5倍训练加速。文章详细说明了环境搭建步骤,包括conda环境创建、JupyterLab安装、Unsloth框架部署等,并提供了模型测试和私有数据集创建的代码示例。该项目特点是场景驱动、效率优先和数据导向,旨在为企业提供从实验室到生产环境的一站式解决方案。
2025-10-19 15:01:18
378
原创 大模型高效微调evalscope实战
EvalScope破解大模型评估难题 阿里云推出的EvalScope评估框架有效解决了大模型评估中的"黑盒"问题。该工具提供标准化测试(MMLU、C-Eval等)和自定义数据集支持,覆盖认知能力、安全合规、多模态等全方位评估维度。通过OpenCompass等后端实现自动化评估,支持微调效果验证、方案对比和持续监控,将主观"感觉"转化为客观数据。安装灵活,可根据需求选择基础包或扩展组件(多模态、RAG、性能测试等),并提供可视化界面展示结果,显著提升评估效率和结果
2025-10-19 09:08:22
956
原创 大模型DPO强化学习效果检验
本章节主要讲解DPO强化学习微调验证的必要性与方法。确保微调效果具有关键作用,证明微调有效性、发现具体改进点、质量控制及业务价值评估。验证面临技术实现难度、评估标准主观性和资源消耗高等挑战。
2025-10-18 09:11:08
441
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅