- 博客(208)
- 资源 (3)
- 收藏
- 关注
原创 智能体(AI Agent)开发指南
《智能体开发指南》是一份基于国产大模型与火山引擎的入门教程,完整介绍从环境配置到实战案例的智能体开发全流程。内容涵盖大模型接入、MCP构建、RAG、ReAct等核心技术,以及Coze平台实践和LangChain应用。教程特别适合国内开发者,无需翻墙即可快速上手。通过12个由浅入深的章节,帮助读者掌握智能体开发核心技能,并附有本地部署框架deer-flow的实践指南。文档最后鼓励开发者持续学习,共同推动国产AI生态发展。
2025-09-03 08:50:52
414
原创 高精度车牌识别算法
一 车牌识别概述车牌识别属于OCR的一种,但它也有自己的特点。考虑到边缘设备部署,我们没有用lstm,仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛,常见的停车场收费系统,车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二 车牌识别本方案采用多标签识别的技术,同时设计的一个物件分支,判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.
2021-10-31 11:35:46
9732
5
原创 智能交通——车辆属性识别
一 场景说明在道路上,利用AI算法定位机动车的位置并识别车辆的属性,这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别,整个过程包含两个算法,基于yolov5的目标检测算法和基于多任务的属性识别算法。二 算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的,在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明,在此就不再赘述。如果读者感兴趣,可以参考我的博客:YOLOV5实战下面是我的测试代码,对yolo v.
2021-10-10 19:10:20
8629
16
原创 Clion中配置OpenCV环境(Ubuntu)
一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion,新建一个工程,工程名为XXX2. 打开工程的CMakeList,在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n
2021-07-09 14:51:31
2508
1
翻译 Clion安装教程(Linux)
一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急,后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出,source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.
2021-07-09 11:29:39
10582
5
原创 onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...
2021-04-29 20:53:44
5220
2
原创 通过MACE在Android手机上部署深度学习模型
1. MACE的环境搭建 参考我的博客:MACE的环境搭建——conda实现2. 构建项目 (1)下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...
2021-04-28 20:00:05
1468
5
原创 MACE的环境搭建——conda实现
1.MACE 主页 MACE 的github地址:https://github.com/XiaoMi/mace 小米官方的相关文档:https://mace.readthedocs.io/en/latest/ 对开发环境的要求,可以按照以下指令安装相关的包:2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境,我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...
2021-04-28 09:51:58
1110
原创 行人属性识别,PA100K
行人属性识别,即识别行人的多个特征,例如:性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别,主要用到的是multitask技术。
2021-02-07 09:49:40
7813
30
原创 YOLO V5 实战
YOLO V5开源了,还是pytorch版本的,对于pytorch使用者而言就非常友好,本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的,和大家一起分享。
2020-07-25 18:03:27
4580
5
原创 模型训练技巧——mixup
mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的,但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。这样做,mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。
2020-05-07 16:08:10
3106
2
原创 模型训练技巧——label smoothing
使用应用label smoothing在绝大多数分类任务上能提高模型的准确率,本文主要用pytorch实现label smoothing,使它能方便的应用到项目中。
2020-05-06 17:01:21
2576
2
原创 三分钟带你理解ROC曲线和PR曲线
Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能,所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。
2020-04-28 18:50:13
2886
原创 ResNeSt——ResNet最强改进版
张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增。是ResNet的最强改进版本,博主已经讲该网络应用与工程项目中。
2020-04-20 23:42:04
21325
39
原创 三分钟带你掌握Python中的多进程和多线程
多进程和多线程编程对于代码的并发执行,提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程,并将其封装成类,成为好用的工具,方便调用。
2020-04-18 15:11:40
1029
1
原创 智能体开发指南——动手搭建一个智能体
本文将介绍如何基于国产大模型和火山推理引擎开发一个智能体(AI Agent)。内容涵盖环境配置、基础功能实现和进阶开发,包括天气查询、时间获取、数学计算、文本翻译和网络搜索等工具函数的代码示例。通过LangGraph创建ReAct风格的Agent,开发者可以快速构建一个具备多功能的智能助手。教程适合各类开发者,从零开始掌握智能体开发的核心流程,并提供了完整的测试案例和输出示例。所有实现均无需翻墙,方便国内开发者直接应用。
2025-09-02 09:34:56
781
原创 智能体开发指南——RAG实践(使用火山引擎embedding创建RAG系统)
本文介绍了基于国产大模型的智能体开发指南,重点讲解了如何用火山引擎Embedding替代OpenAIEmbeddings。教程提供了完整的VolcanoEmbeddings类实现,包含文档嵌入、查询嵌入和相似度计算功能,支持国内开发者无需翻墙即可使用。代码示例演示了如何初始化嵌入模型、生成向量以及计算文本相似度。该方案采用火山推理引擎实现,适合在国内环境快速部署AI应用,帮助开发者掌握智能体开发的核心技能。
2025-09-02 09:19:01
1095
原创 智能体开发指南——langchain实践
《智能体开发指南:基于国产大模型的实践教程》 本教程为国内开发者提供了基于国产大模型的智能体开发全流程指南。主要内容包括: 环境配置与基础构建:完全基于国产大模型与火山推理引擎实现,无需翻墙即可实践 核心技术实现: 大模型流式输出:通过智谱AI实现链式流式问答功能 文本向量化:利用火山引擎API将文本转化为向量表示,并计算相似度 实战应用:包含环境配置、进阶功能到实际案例的完整开发流程 教程提供Python代码示例,涵盖模型调用、提示模板构建、流式处理等关键技术点,适合不同水平的开发者学习参考。
2025-09-02 09:02:41
979
原创 扣子(coze)实践指南进阶篇——创建工作流,并将工作流接入智能体
《智能体开发指南:基于国产大模型的工作流实践》摘要:本教程详细介绍了如何从零搭建智能体应用,完全基于国产大模型与火山引擎实现,无需翻墙即可实践。核心内容包括:1)通过可视化画布创建工作流,实现"搜索-大模型总结-输出"的完整流程;2)演示插件添加、参数设置与模块连接的具体操作;3)提供Python代码调用工作流的示例;4)指导将工作流接入智能体并发布。教程包含环境配置、基础构建到实际案例的全流程,适合不同水平的开发者快速上手智能体开发。完整指南可通过微信公众号AIWorkshopLab获
2025-08-31 15:28:38
621
原创 扣子(coze)实践指南基础篇——五分钟快速接入 DeepSeek 模型
摘要:Coze是一款AI智能体开发平台,支持快速接入DeepSeek等大语言模型。本文介绍了如何在5分钟内完成DeepSeek模型接入:登录Coze平台创建智能体,配置基本信息、选择模型、添加插件(如联网搜索和视觉理解),最后调试并发布。该方案让开发者能快速构建具备专业知识和多模态能力的AI助手。(150字)
2025-08-31 15:17:44
599
原创 智能体进阶——Plan-and-Solve模式
《国产大模型智能体开发指南》提供了一套完整的AI智能体构建教程,采用Decomposition-First方法将复杂任务结构化分解为子任务,并引入ReWOO技术分离思考与观察过程,显著提升计算效率。教程包含Planner规划、Worker执行和Solver解算三个核心模块,通过特殊变量#E实现执行证据的传递。该指南完全基于国产大模型开发,无需翻墙即可实践,适合不同水平的开发者学习。配套资源可通过微信公众号"AIWorkshopLab"获取完整PDF教程。
2025-08-31 15:03:54
1029
原创 智能体进阶——ReAct模式
《智能体开发指南》基于国产大模型与火山引擎,提供从零搭建智能体的完整教程。重点介绍了Interleaved Decomposition方法(分步细化任务)、ReAct范式(思考与行动交替执行)以及LLM原生功能调用的实现流程。内容涵盖环境配置、基础构建到实际案例,适合不同水平的开发者学习智能体开发核心技能。通过系统提示词设计、多轮对话流程等实战细节,帮助开发者掌握动态任务规划与外部工具调用的关键技术。
2025-08-31 12:09:40
882
原创 智能体进阶——检索增强生成(RAG)
《国产大模型智能体开发指南:基于RAG技术的实践教程》 本教程面向国内开发者,提供从零搭建智能体的完整指南。采用国产大模型与火山引擎实现,无需翻墙即可实践。教程重点介绍检索增强生成(RAG)技术,该技术通过知识编码存储、查询嵌入搜索和上下文增强生成三步骤,使大模型能动态访问外部知识,显著提升回答准确性和时效性。内容涵盖RAG核心机制解析、技术优势说明及完整开发流程,适合不同水平的开发者学习。教程后续将提供完整实践案例,读者可关注"AIWorkshopLab"公众号获取完整PDF版本。
2025-08-31 11:41:21
286
原创 智能体进阶——智能体规划
《智能体开发指南:从入门到实践》摘要 本指南为国内开发者提供基于国产大模型的智能体开发教程。重点介绍了5种核心开发方法:1)任务分解法(分解优先/交叉分解);2)多计划选择(生成备选方案后优化选择);3)外部模块辅助(结合符号/神经规划器);4)反思精炼法(通过迭代优化方案);5)记忆增强型(结合RAG等技术)。教程涵盖环境配置、基础构建到实战案例的全流程,特别适合希望快速掌握智能体开发技术的从业人员。完整版可通过微信公众号AIWorkshopLab获取。
2025-08-31 11:25:01
628
原创 智能体的Hello World——构建第一个MCP
《智能体开发指南:基于国产大模型的MCP实践》摘要 本教程介绍如何通过Model Context Protocol(MCP)开发智能体应用,完全基于国产大模型实现。MCP作为标准化协议,包含Host/Client/Server三层架构,支持Stdio和HTTP两种通信方式,提供Tools、Resources、Prompts三大核心功能。教程通过两个案例演示:1)基础计算器服务,展示工具/资源/提示的注册与调用;2)Arxiv论文查询服务,实现关键词搜索并返回最新论文。配套代码提供本地测试方案,开发者可通过P
2025-08-31 11:06:54
563
原创 智能体的Hello World——接入大模型
《国产大模型智能体开发指南》是一份面向国内开发者的实用教程,基于火山引擎和国产大模型实现,无需翻墙即可快速上手。教程从AI Agent的基础概念讲起,通过与传统AI的对比,阐释了其"目标导向-自主决策"的核心特征,并详细解析了LLM驱动Agent的三大关键能力:经验学习、工具调用和任务规划。实战部分以LangGraph框架为例,演示了从环境配置到工具集成的完整开发流程,包括对接火山引擎API、定义工具函数和构建反应式Agent的具体代码实现。教程特别强调国产化技术方案,为开发者提供了开箱
2025-08-31 10:54:13
1047
转载 MARCONet++ 攻克中文文本图像超分难题
本文提出MARCONet++框架,专为解决中文文本图像超分辨率难题。针对现有方法处理复杂中文结构时的不足,创新性地引入生成式结构先验:通过解耦汉字结构与风格,利用改进的StyleGAN生成高精度笔画模板指导超分重建。该框架包含字体风格预测、字符分类定位、结构先验生成和文本超分四个模块,在合成与真实数据上均展现优异性能,能准确恢复不规则布局的复杂汉字。实验表明其显著优于现有方法,同时具备向其他语言扩展的潜力。未来工作可优化竖排文本、长文本行等场景的处理效果。
2025-08-15 18:15:19
971
原创 Qwen-Image擅长文字渲染的创作利器
阿里推出20B参数的多模态模型Qwen-Image,具备卓越的文本渲染和图像编辑能力。该模型在复杂文本生成(中英双语、段落布局)和精准图像编辑(风格迁移、物体增减)方面表现突出,在多个基准测试中达到SOTA水平。Qwen-Image支持多种艺术风格转换,从写实场景到动漫风格均可生成,并具备专业级图像编辑功能。目前已开源并提供在线体验,旨在降低视觉创作门槛,推动生成式AI生态发展。
2025-08-08 16:30:40
613
原创 一文读懂 | 如何用 4M 小模型实现文档图像的“净化大一统”?
本文提出了一种轻量级神经网络模型,可一键解决手机拍摄文档的多种质量问题,包括光照不均、阴影、摩尔纹和透字现象。该模型仅4MB大小,能在手机、CPU设备等低端硬件上实现50ms内的快速推理,通过一次处理即可消除多种图像瑕疵,显著提升OCR识别率和阅读体验。相比传统分段处理方法,这种All-in-One方案更高效实用,适用于文档管理App、扫描设备和行业数字化系统等多种场景。
2025-08-05 11:14:36
302
转载 ForCenNet:文档图矫正迎来新SOTA(2025)
本文提出ForCenNet,一种创新的文档图像校正方法,通过聚焦文本行和表格边框等前景元素实现更精准的几何校正。该方法包含三个关键技术:以前景为中心的标签生成提供精确监督信号,前景掩码机制引导模型关注关键区域,以及创新的曲率一致性损失直接优化线条曲率。实验表明,ForCenNet在四个主流基准数据集上全面超越现有方法,树立了新的性能标杆。该方法有效利用了文档结构先验,为复杂视觉任务中的几何校正问题提供了新思路。作者已开源代码,便于社区复现和进一步研究。
2025-08-01 16:57:27
1278
原创 MonkeyOCR从理论到实践——保姆级教程
MonkeyOCR:本文提出“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。
2025-06-12 14:25:25
4651
4
原创 DocLayout-YOLO使用指南
DocLayout-YOLO是一个基于YOLOv10的文档布局分析工具,可自动检测文档中的标题、正文、表格、公式等元素。通过pip安装后,用户可调用封装好的Python类进行预测,返回检测框坐标、类别和置信度。该工具支持GPU加速,在测试中展现了良好的检测效果,能准确识别文档中的各类结构元素。项目提供在线体验、论文和开源代码,方便研究人员和开发者使用。
2025-06-11 11:21:22
896
原创 Dolphin文档解析从理论到实践——保姆级教程
2025年5月,字节开源了文档解析Dolphin,让文档解析效率提升83%。本文将深入解析字节跳动最新开源的Dolphin模型,先看理论在实战体验。现实世界中约80%的有价值信息都被"囚禁"在非结构化文档中——PDF学术论文、企业报告、技术文档、医疗记录。这些"沉睡的数据资产"如同被锁在保险柜中的黄金,等待着被解放的钥匙。
2025-05-28 19:21:42
1605
原创 WildDoc:拍照场景下的文档理解——数据真香
在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明MLLMs已很好地解决了文档理解问题。但是在拍照场景下表现较差,该博客可以获得大量拍照场景下的文档数据。
2025-05-28 18:59:18
473
原创 StepX-Edit:一个通用图像编辑框架——论文阅读笔记
近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edit,旨在提供与GPT-4o和Gemini2 Flash等闭源模型相当的性能。
2025-05-21 17:22:48
1207
1
原创 onnx转TFLite实现本地化部署
将 ONNX 模型转换为 TFLite 模型需要 两个步骤:先将 ONNX 转换为 TensorFlow 格式(如 SavedModel),再通过 TensorFlow Lite 转换工具生成 TFLite 模型。本文是详细操作流程(在CPU下即可完成)。
2025-05-20 17:26:44
807
原创 深度研究框架:deer-flow本地部署最佳实践——保姆级教程
DeerFlow 是一个社区驱动的深度研究框架,旨在将语言模型与专业工具(如网络搜索、爬虫和 Python 代码执行)相结合,实现自动化研究和代码分析。其模块化多智能体系统架构基于 LangGraph,包含协调器、规划器、研究团队和报告员等组件,能够生成包含图像的综合报告,并支持播客音频生成。DeerFlow 的核心能力包括 LLM 集成、工具和 MCP 集成、人机协作以及内容创作。用户可以通过拉取代码、配置环境和使用 Web UI 来体验其功能。实践案例展示了如何利用 DeerFlow 生成武汉5月旅游攻
2025-05-20 09:46:59
3406
2
原创 视觉-语言大模型VLM实践——保姆级教程
本博客详细介绍:多模态大模型Qwen2.5-VL本地部署指南VLLM部署多模态大模型Swift实战(微调多模态模型Qwen2.5-VL-7B)强化学习从理论到实践(用强化学习微调Qwen2.5-VL模型)
2025-05-16 16:51:19
1911
原创 视觉-语言大模型VLM理论——保姆级教程
随着大语言模型(LLM)的快速发展,基于LLM的多模态模型在计算机视觉、语音、自动驾驶等领域取得了显著进展。本文以Qwen-VL系列模型为例,探讨了多模态大语言模型(MM-LLM)的通用框架及其在视觉-语言任务中的应用。
2025-05-16 15:38:46
1679
原创 ControlNet可控生成从理论到实践——保姆级教程
ControlNet模型是让AI绘画领域无比繁荣的关键一环,它让AI绘画的生成过程更加的可控,更有助于广泛地将AI绘画应用到各行各业中,为AI绘画的商业落地奠定坚实的基础。
2025-05-15 16:45:19
1174
人工智能基于LangGraph与MCP协议的智能体开发技术指南:国产大模型驱动的AI Agent构建与RAG系统实现
2025-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅