guopeiAI-优快云博客

原创智能体（AI Agent）开发指南

《智能体开发指南》是一份基于国产大模型与火山引擎的入门教程，完整介绍从环境配置到实战案例的智能体开发全流程。内容涵盖大模型接入、MCP构建、RAG、ReAct等核心技术，以及Coze平台实践和LangChain应用。教程特别适合国内开发者，无需翻墙即可快速上手。通过12个由浅入深的章节，帮助读者掌握智能体开发核心技能，并附有本地部署框架deer-flow的实践指南。文档最后鼓励开发者持续学习，共同推动国产AI生态发展。

2025-09-03 08:50:52 462

原创高精度车牌识别算法

一车牌识别概述车牌识别属于OCR的一种，但它也有自己的特点。考虑到边缘设备部署，我们没有用lstm，仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛，常见的停车场收费系统，车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二车牌识别本方案采用多标签识别的技术，同时设计的一个物件分支，判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.

2021-10-31 11:35:46 9779 5

原创智能交通——车辆属性识别

一场景说明在道路上，利用AI算法定位机动车的位置并识别车辆的属性，这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别，整个过程包含两个算法，基于yolov5的目标检测算法和基于多任务的属性识别算法。二算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的，在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明，在此就不再赘述。如果读者感兴趣，可以参考我的博客：YOLOV5实战下面是我的测试代码，对yolo v.

2021-10-10 19:10:20 8666 16

原创 Clion中配置OpenCV环境(Ubuntu)

一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion，新建一个工程，工程名为XXX2. 打开工程的CMakeList，在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n

2021-07-09 14:51:31 2530 1

翻译 Clion安装教程(Linux)

一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急，后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出，source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.

2021-07-09 11:29:39 10636 5

原创 onnx 模型转换及推理时间对比

1. 环境准备对比时间，和模型训练的环境相同，可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程直接上代码吧，代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...

2021-04-29 20:53:44 5294 2

原创通过MACE在Android手机上部署深度学习模型

1. MACE的环境搭建参考我的博客：MACE的环境搭建——conda实现2. 构建项目（1）下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...

2021-04-28 20:00:05 1492 5

原创 MACE的环境搭建——conda实现

1.MACE 主页 MACE 的github地址：https://github.com/XiaoMi/mace 小米官方的相关文档：https://mace.readthedocs.io/en/latest/ 对开发环境的要求，可以按照以下指令安装相关的包：2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境，我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...

2021-04-28 09:51:58 1163

原创行人属性识别，PA100K

行人属性识别，即识别行人的多个特征，例如：性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别，主要用到的是multitask技术。

2021-02-07 09:49:40 7850 30

原创 YOLO V5 实战

YOLO V5开源了，还是pytorch版本的，对于pytorch使用者而言就非常友好，本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的，和大家一起分享。

2020-07-25 18:03:27 4597 5

原创模型训练技巧——mixup

mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的，但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上，mixup在成对样本及其标签的凸组合（convex combinations）上训练神经网络。这样做，mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验，研究结果表明，mixup可以改进当前最先进的神经网络架构的泛化能力。

2020-05-07 16:08:10 3131 2

原创模型训练技巧——label smoothing

使用应用label smoothing在绝大多数分类任务上能提高模型的准确率，本文主要用pytorch实现label smoothing，使它能方便的应用到项目中。

2020-05-06 17:01:21 2589 2

原创三分钟带你理解ROC曲线和PR曲线

Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能，所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。

2020-04-28 18:50:13 2918

原创 ResNeSt——ResNet最强改进版

张航、李沐等人提出ResNet最强改进版：性能提高3%，参数不增。是ResNet的最强改进版本，博主已经讲该网络应用与工程项目中。

2020-04-20 23:42:04 21382 39

原创三分钟带你掌握Python中的多进程和多线程

多进程和多线程编程对于代码的并发执行，提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程，并将其封装成类，成为好用的工具，方便调用。

2020-04-18 15:11:40 1041 1

原创用 GPT 写脚本，用剪映做动画，创意一分钟落地

AI创意视频制作流程简介本文介绍了一种结合GPT与剪映的AI视频创作方法：首先通过GPT生成适合3-6岁儿童的动画脚本（以"郭景航的AI生活"为例），包含人脸识别开门、语音控制设备等场景；然后将脚本输入剪映的"AI故事成片"功能，自动生成卡通风格的动画视频。该方法实现了从创意到成片的快速转化，特别适合制作简单生动的教育类内容，展示了AI在创意内容生产中的高效协作能力。

2025-12-22 16:02:19 309

原创智能体开发指南——动手搭建一个智能体

本文将介绍如何基于国产大模型和火山推理引擎开发一个智能体（AI Agent）。内容涵盖环境配置、基础功能实现和进阶开发，包括天气查询、时间获取、数学计算、文本翻译和网络搜索等工具函数的代码示例。通过LangGraph创建ReAct风格的Agent，开发者可以快速构建一个具备多功能的智能助手。教程适合各类开发者，从零开始掌握智能体开发的核心流程，并提供了完整的测试案例和输出示例。所有实现均无需翻墙，方便国内开发者直接应用。

2025-09-02 09:34:56 893

原创智能体开发指南——RAG实践(使用火山引擎embedding创建RAG系统)

本文介绍了基于国产大模型的智能体开发指南，重点讲解了如何用火山引擎Embedding替代OpenAIEmbeddings。教程提供了完整的VolcanoEmbeddings类实现，包含文档嵌入、查询嵌入和相似度计算功能，支持国内开发者无需翻墙即可使用。代码示例演示了如何初始化嵌入模型、生成向量以及计算文本相似度。该方案采用火山推理引擎实现，适合在国内环境快速部署AI应用，帮助开发者掌握智能体开发的核心技能。

2025-09-02 09:19:01 1198

原创智能体开发指南——langchain实践

《智能体开发指南：基于国产大模型的实践教程》本教程为国内开发者提供了基于国产大模型的智能体开发全流程指南。主要内容包括：环境配置与基础构建：完全基于国产大模型与火山推理引擎实现，无需翻墙即可实践核心技术实现：大模型流式输出：通过智谱AI实现链式流式问答功能文本向量化：利用火山引擎API将文本转化为向量表示，并计算相似度实战应用：包含环境配置、进阶功能到实际案例的完整开发流程教程提供Python代码示例，涵盖模型调用、提示模板构建、流式处理等关键技术点，适合不同水平的开发者学习参考。

2025-09-02 09:02:41 1031

原创扣子（coze）实践指南进阶篇——创建工作流，并将工作流接入智能体

《智能体开发指南：基于国产大模型的工作流实践》摘要：本教程详细介绍了如何从零搭建智能体应用，完全基于国产大模型与火山引擎实现，无需翻墙即可实践。核心内容包括：1）通过可视化画布创建工作流，实现"搜索-大模型总结-输出"的完整流程；2）演示插件添加、参数设置与模块连接的具体操作；3）提供Python代码调用工作流的示例；4）指导将工作流接入智能体并发布。教程包含环境配置、基础构建到实际案例的全流程，适合不同水平的开发者快速上手智能体开发。完整指南可通过微信公众号AIWorkshopLab获

2025-08-31 15:28:38 786

原创扣子（coze）实践指南基础篇——五分钟快速接入 DeepSeek 模型

摘要：Coze是一款AI智能体开发平台，支持快速接入DeepSeek等大语言模型。本文介绍了如何在5分钟内完成DeepSeek模型接入：登录Coze平台创建智能体，配置基本信息、选择模型、添加插件（如联网搜索和视觉理解），最后调试并发布。该方案让开发者能快速构建具备专业知识和多模态能力的AI助手。（150字）

2025-08-31 15:17:44 730

原创智能体进阶——Plan-and-Solve模式

《国产大模型智能体开发指南》提供了一套完整的AI智能体构建教程，采用Decomposition-First方法将复杂任务结构化分解为子任务，并引入ReWOO技术分离思考与观察过程，显著提升计算效率。教程包含Planner规划、Worker执行和Solver解算三个核心模块，通过特殊变量#E实现执行证据的传递。该指南完全基于国产大模型开发，无需翻墙即可实践，适合不同水平的开发者学习。配套资源可通过微信公众号"AIWorkshopLab"获取完整PDF教程。

2025-08-31 15:03:54 1107

原创智能体进阶——ReAct模式

《智能体开发指南》基于国产大模型与火山引擎，提供从零搭建智能体的完整教程。重点介绍了Interleaved Decomposition方法（分步细化任务）、ReAct范式（思考与行动交替执行）以及LLM原生功能调用的实现流程。内容涵盖环境配置、基础构建到实际案例，适合不同水平的开发者学习智能体开发核心技能。通过系统提示词设计、多轮对话流程等实战细节，帮助开发者掌握动态任务规划与外部工具调用的关键技术。

2025-08-31 12:09:40 944

原创智能体进阶——检索增强生成（RAG）

《国产大模型智能体开发指南：基于RAG技术的实践教程》本教程面向国内开发者，提供从零搭建智能体的完整指南。采用国产大模型与火山引擎实现，无需翻墙即可实践。教程重点介绍检索增强生成(RAG)技术，该技术通过知识编码存储、查询嵌入搜索和上下文增强生成三步骤，使大模型能动态访问外部知识，显著提升回答准确性和时效性。内容涵盖RAG核心机制解析、技术优势说明及完整开发流程，适合不同水平的开发者学习。教程后续将提供完整实践案例，读者可关注"AIWorkshopLab"公众号获取完整PDF版本。

2025-08-31 11:41:21 308

原创智能体进阶——智能体规划

《智能体开发指南：从入门到实践》摘要本指南为国内开发者提供基于国产大模型的智能体开发教程。重点介绍了5种核心开发方法：1）任务分解法（分解优先/交叉分解）；2）多计划选择（生成备选方案后优化选择）；3）外部模块辅助（结合符号/神经规划器）；4）反思精炼法（通过迭代优化方案）；5）记忆增强型（结合RAG等技术）。教程涵盖环境配置、基础构建到实战案例的全流程，特别适合希望快速掌握智能体开发技术的从业人员。完整版可通过微信公众号AIWorkshopLab获取。

2025-08-31 11:25:01 651

原创智能体的Hello World——构建第一个MCP

《智能体开发指南：基于国产大模型的MCP实践》摘要本教程介绍如何通过Model Context Protocol(MCP)开发智能体应用，完全基于国产大模型实现。MCP作为标准化协议，包含Host/Client/Server三层架构，支持Stdio和HTTP两种通信方式，提供Tools、Resources、Prompts三大核心功能。教程通过两个案例演示：1）基础计算器服务，展示工具/资源/提示的注册与调用；2）Arxiv论文查询服务，实现关键词搜索并返回最新论文。配套代码提供本地测试方案，开发者可通过P

2025-08-31 11:06:54 580

原创智能体的Hello World——接入大模型

《国产大模型智能体开发指南》是一份面向国内开发者的实用教程，基于火山引擎和国产大模型实现，无需翻墙即可快速上手。教程从AI Agent的基础概念讲起，通过与传统AI的对比，阐释了其"目标导向-自主决策"的核心特征，并详细解析了LLM驱动Agent的三大关键能力：经验学习、工具调用和任务规划。实战部分以LangGraph框架为例，演示了从环境配置到工具集成的完整开发流程，包括对接火山引擎API、定义工具函数和构建反应式Agent的具体代码实现。教程特别强调国产化技术方案，为开发者提供了开箱

2025-08-31 10:54:13 1076

转载 MARCONet++ 攻克中文文本图像超分难题

本文提出MARCONet++框架，专为解决中文文本图像超分辨率难题。针对现有方法处理复杂中文结构时的不足，创新性地引入生成式结构先验：通过解耦汉字结构与风格，利用改进的StyleGAN生成高精度笔画模板指导超分重建。该框架包含字体风格预测、字符分类定位、结构先验生成和文本超分四个模块，在合成与真实数据上均展现优异性能，能准确恢复不规则布局的复杂汉字。实验表明其显著优于现有方法，同时具备向其他语言扩展的潜力。未来工作可优化竖排文本、长文本行等场景的处理效果。

2025-08-15 18:15:19 1026

原创 Qwen-Image擅长文字渲染的创作利器

阿里推出20B参数的多模态模型Qwen-Image，具备卓越的文本渲染和图像编辑能力。该模型在复杂文本生成（中英双语、段落布局）和精准图像编辑（风格迁移、物体增减）方面表现突出，在多个基准测试中达到SOTA水平。Qwen-Image支持多种艺术风格转换，从写实场景到动漫风格均可生成，并具备专业级图像编辑功能。目前已开源并提供在线体验，旨在降低视觉创作门槛，推动生成式AI生态发展。

2025-08-08 16:30:40 640

原创一文读懂 | 如何用 4M 小模型实现文档图像的“净化大一统”？

本文提出了一种轻量级神经网络模型，可一键解决手机拍摄文档的多种质量问题，包括光照不均、阴影、摩尔纹和透字现象。该模型仅4MB大小，能在手机、CPU设备等低端硬件上实现50ms内的快速推理，通过一次处理即可消除多种图像瑕疵，显著提升OCR识别率和阅读体验。相比传统分段处理方法，这种All-in-One方案更高效实用，适用于文档管理App、扫描设备和行业数字化系统等多种场景。

2025-08-05 11:14:36 324

转载 ForCenNet：文档图矫正迎来新SOTA（2025）

本文提出ForCenNet，一种创新的文档图像校正方法，通过聚焦文本行和表格边框等前景元素实现更精准的几何校正。该方法包含三个关键技术：以前景为中心的标签生成提供精确监督信号，前景掩码机制引导模型关注关键区域，以及创新的曲率一致性损失直接优化线条曲率。实验表明，ForCenNet在四个主流基准数据集上全面超越现有方法，树立了新的性能标杆。该方法有效利用了文档结构先验，为复杂视觉任务中的几何校正问题提供了新思路。作者已开源代码，便于社区复现和进一步研究。

2025-08-01 16:57:27 1406

原创 MonkeyOCR从理论到实践——保姆级教程

MonkeyOCR：本文提出“结构-识别-关系”（SRR）三元组范式，实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。在对多页文档解析场景下，处理速度达每秒0.84页，显著优于MinerU（0.65页/秒）和Qwen2.5-VL-7B（0.12页/秒）。

2025-06-12 14:25:25 4845 4

原创 DocLayout-YOLO使用指南

DocLayout-YOLO是一个基于YOLOv10的文档布局分析工具，可自动检测文档中的标题、正文、表格、公式等元素。通过pip安装后，用户可调用封装好的Python类进行预测，返回检测框坐标、类别和置信度。该工具支持GPU加速，在测试中展现了良好的检测效果，能准确识别文档中的各类结构元素。项目提供在线体验、论文和开源代码，方便研究人员和开发者使用。

2025-06-11 11:21:22 992

原创 Dolphin文档解析从理论到实践——保姆级教程

2025年5月，字节开源了文档解析Dolphin，让文档解析效率提升83%。本文将深入解析字节跳动最新开源的Dolphin模型，先看理论在实战体验。现实世界中约80%的有价值信息都被"囚禁"在非结构化文档中——PDF学术论文、企业报告、技术文档、医疗记录。这些"沉睡的数据资产"如同被锁在保险柜中的黄金，等待着被解放的钥匙。

2025-05-28 19:21:42 1729

原创 WildDoc:拍照场景下的文档理解——数据真香

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明MLLMs已很好地解决了文档理解问题。但是在拍照场景下表现较差，该博客可以获得大量拍照场景下的文档数据。

2025-05-28 18:59:18 499

原创 StepX-Edit：一个通用图像编辑框架——论文阅读笔记

近年来，图像编辑技术发展迅速，GPT- 4o、Gemini2 Flash等前沿多模态模型的推出，展现了图像编辑能力的巨大潜力。这些模型展示了令人印象深刻的适应能力，能够满足绝大多数用户驱动的编辑需求，标志着图像处理领域取得了重大进展。然而，开源算法与这些闭源模型之间仍存在较大差距。为此，我们介绍了一种最先进的图像编辑模型——Step1X-Edit，旨在提供与GPT-4o和Gemini2 Flash等闭源模型相当的性能。

2025-05-21 17:22:48 1253 1

原创 onnx转TFLite实现本地化部署

将 ONNX 模型转换为 TFLite 模型需要两个步骤：先将 ONNX 转换为 TensorFlow 格式（如 SavedModel），再通过 TensorFlow Lite 转换工具生成 TFLite 模型。本文是详细操作流程（在CPU下即可完成）。

2025-05-20 17:26:44 934

原创深度研究框架：deer-flow本地部署最佳实践——保姆级教程

DeerFlow 是一个社区驱动的深度研究框架，旨在将语言模型与专业工具（如网络搜索、爬虫和 Python 代码执行）相结合，实现自动化研究和代码分析。其模块化多智能体系统架构基于 LangGraph，包含协调器、规划器、研究团队和报告员等组件，能够生成包含图像的综合报告，并支持播客音频生成。DeerFlow 的核心能力包括 LLM 集成、工具和 MCP 集成、人机协作以及内容创作。用户可以通过拉取代码、配置环境和使用 Web UI 来体验其功能。实践案例展示了如何利用 DeerFlow 生成武汉5月旅游攻

2025-05-20 09:46:59 3719 2

原创视觉-语言大模型VLM实践——保姆级教程

本博客详细介绍：多模态大模型Qwen2.5-VL本地部署指南VLLM部署多模态大模型Swift实战（微调多模态模型Qwen2.5-VL-7B）强化学习从理论到实践（用强化学习微调Qwen2.5-VL模型）

2025-05-16 16:51:19 2071

原创视觉-语言大模型VLM理论——保姆级教程

随着大语言模型（LLM）的快速发展，基于LLM的多模态模型在计算机视觉、语音、自动驾驶等领域取得了显著进展。本文以Qwen-VL系列模型为例，探讨了多模态大语言模型（MM-LLM）的通用框架及其在视觉-语言任务中的应用。

2025-05-16 15:38:46 1945

人工智能基于LangGraph与MCP协议的智能体开发技术指南：国产大模型驱动的AI Agent构建与RAG系统实现

内容概要：本文《智能体（AI+Agent）开发指南》系统介绍了AI智能体的基本概念、核心能力与开发实践。内容涵盖AI Agent与传统AI的区别、LLM驱动的智能体工作循环、三大关键能力（记忆调整、工具使用、任务规划），并通过LangGraph、MCP协议、ReAct模式等技术框架演示了从零构建智能体的完整流程。进阶部分深入讲解了任务分解、多计划选择、检索增强生成（RAG）、CodeAct代码执行模式及Plan-and-Solve架构，并结合扣子（Coze）平台和LangChain工具链提供了低代码与代码级的开发案例，最后通过DeerFlow框架展示了多智能体协同研究系统的本地部署与应用。适合人群：具备一定Python编程基础，对大模型应用开发感兴趣的初学者和1-3年经验的工程师，尤其适合希望在国内环境下快速实践AI Agent开发的技术人员。使用场景及目标：①学习如何基于国产大模型和火山引擎构建无需翻墙的智能体系统；②掌握LangGraph、RAG、MCP等主流框架的集成与应用；③实现具备工具调用、任务规划、网络检索和代码执行能力的多功能AI助手；④通过扣子平台或本地部署方式完成从开发到发布的全流程实践。阅读建议：建议结合代码示例动手实践，优先运行Hello World级别的Agent，再逐步深入RAG、MCP和多Agent协作等复杂场景。注意API密钥配置与环境依赖安装，推荐使用可视化平台（如扣子）与本地代码开发相结合的方式提升学习效率。

2025-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

人工智能基于LangGraph与MCP协议的智能体开发技术指南：国产大模型驱动的AI Agent构建与RAG系统实现

Deep_Adversarial_Decomposition

mobilenetv2.py

ssdlite_head.py

空空如也