- 博客(188)
- 资源 (3)
- 收藏
- 关注

原创 高精度车牌识别算法
一 车牌识别概述车牌识别属于OCR的一种,但它也有自己的特点。考虑到边缘设备部署,我们没有用lstm,仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛,常见的停车场收费系统,车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二 车牌识别本方案采用多标签识别的技术,同时设计的一个物件分支,判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.
2021-10-31 11:35:46
9523
5

原创 智能交通——车辆属性识别
一 场景说明在道路上,利用AI算法定位机动车的位置并识别车辆的属性,这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别,整个过程包含两个算法,基于yolov5的目标检测算法和基于多任务的属性识别算法。二 算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的,在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明,在此就不再赘述。如果读者感兴趣,可以参考我的博客:YOLOV5实战下面是我的测试代码,对yolo v.
2021-10-10 19:10:20
8295
16

原创 Clion中配置OpenCV环境(Ubuntu)
一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion,新建一个工程,工程名为XXX2. 打开工程的CMakeList,在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n
2021-07-09 14:51:31
2402
1

翻译 Clion安装教程(Linux)
一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急,后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出,source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.
2021-07-09 11:29:39
10262
5

原创 onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...
2021-04-29 20:53:44
4888
2

原创 通过MACE在Android手机上部署深度学习模型
1. MACE的环境搭建 参考我的博客:MACE的环境搭建——conda实现2. 构建项目 (1)下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...
2021-04-28 20:00:05
1367
5

原创 MACE的环境搭建——conda实现
1.MACE 主页 MACE 的github地址:https://github.com/XiaoMi/mace 小米官方的相关文档:https://mace.readthedocs.io/en/latest/ 对开发环境的要求,可以按照以下指令安装相关的包:2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境,我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...
2021-04-28 09:51:58
913

原创 行人属性识别,PA100K
行人属性识别,即识别行人的多个特征,例如:性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别,主要用到的是multitask技术。
2021-02-07 09:49:40
7558
29

原创 YOLO V5 实战
YOLO V5开源了,还是pytorch版本的,对于pytorch使用者而言就非常友好,本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的,和大家一起分享。
2020-07-25 18:03:27
4496
5

原创 模型训练技巧——mixup
mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的,但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。这样做,mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。
2020-05-07 16:08:10
3023
2

原创 模型训练技巧——label smoothing
使用应用label smoothing在绝大多数分类任务上能提高模型的准确率,本文主要用pytorch实现label smoothing,使它能方便的应用到项目中。
2020-05-06 17:01:21
2489
2

原创 三分钟带你理解ROC曲线和PR曲线
Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能,所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。
2020-04-28 18:50:13
2716

原创 ResNeSt——ResNet最强改进版
张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增。是ResNet的最强改进版本,博主已经讲该网络应用与工程项目中。
2020-04-20 23:42:04
21010
39

原创 三分钟带你掌握Python中的多进程和多线程
多进程和多线程编程对于代码的并发执行,提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程,并将其封装成类,成为好用的工具,方便调用。
2020-04-18 15:11:40
985
1
原创 StepX-Edit:一个通用图像编辑框架——论文阅读笔记
近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edit,旨在提供与GPT-4o和Gemini2 Flash等闭源模型相当的性能。
2025-05-21 17:22:48
489
原创 onnx转TFLite实现本地化部署
将 ONNX 模型转换为 TFLite 模型需要 两个步骤:先将 ONNX 转换为 TensorFlow 格式(如 SavedModel),再通过 TensorFlow Lite 转换工具生成 TFLite 模型。本文是详细操作流程(在CPU下即可完成)。
2025-05-20 17:26:44
235
原创 深度研究框架:deer-flow本地部署最佳实践——保姆级教程
DeerFlow 是一个社区驱动的深度研究框架,旨在将语言模型与专业工具(如网络搜索、爬虫和 Python 代码执行)相结合,实现自动化研究和代码分析。其模块化多智能体系统架构基于 LangGraph,包含协调器、规划器、研究团队和报告员等组件,能够生成包含图像的综合报告,并支持播客音频生成。DeerFlow 的核心能力包括 LLM 集成、工具和 MCP 集成、人机协作以及内容创作。用户可以通过拉取代码、配置环境和使用 Web UI 来体验其功能。实践案例展示了如何利用 DeerFlow 生成武汉5月旅游攻
2025-05-20 09:46:59
450
原创 视觉-语言大模型VLM实践——保姆级教程
本博客详细介绍:多模态大模型Qwen2.5-VL本地部署指南VLLM部署多模态大模型Swift实战(微调多模态模型Qwen2.5-VL-7B)强化学习从理论到实践(用强化学习微调Qwen2.5-VL模型)
2025-05-16 16:51:19
920
原创 视觉-语言大模型VLM理论——保姆级教程
随着大语言模型(LLM)的快速发展,基于LLM的多模态模型在计算机视觉、语音、自动驾驶等领域取得了显著进展。本文以Qwen-VL系列模型为例,探讨了多模态大语言模型(MM-LLM)的通用框架及其在视觉-语言任务中的应用。
2025-05-16 15:38:46
643
原创 ControlNet可控生成从理论到实践——保姆级教程
ControlNet模型是让AI绘画领域无比繁荣的关键一环,它让AI绘画的生成过程更加的可控,更有助于广泛地将AI绘画应用到各行各业中,为AI绘画的商业落地奠定坚实的基础。
2025-05-15 16:45:19
936
原创 Stable Diffusion从理论到实践——保姆级教程
Stable Diffusion是一个基于Latent Diffusion Models(LDMs)实现的以文生图(text-to-image generation)模型,能够生成高分辨率图像。它的原理涉及Diffusion Model(DDPM)、Attention机制和Autoencoder技术。Stable Diffusion的原理在于在潜在空间进行扩散过程,而非直接在数据空间。本文提供了对Stable Diffusion模型原理和代码实现的详细解读。
2025-05-14 16:44:41
942
原创 强化学习+多模态 从理论到实战
强化学习 (RL) 是一种机器学习范式,其中智能体通过与环境交互来学习最优行为,以最大化累积奖励。与监督学习不同,强化学习不是从显式标签中学习,而是通过反馈(奖励)来指导学习过程。这种学习方式的核心在于通过试错来发现最佳策略,这与监督学习中直接将输入映射到输出有着本质的区别。策略优化是强化学习中的一类算法,其直接目标是找到智能体在环境中采取行动的最佳策略。策略代表了智能体在给定状态下选择行动的方式,它定义了从状态到行动的映射。
2025-05-06 16:19:13
909
原创 人像抠图matting
抠图Image Matting(精细化分割/图像去背景)旨在从图像中精确提取前景对象,并处理前景与背景之间的透明度过渡区域(如头发、烟雾等半透明区域)。其核心是通过预测每个像素的透明度值(Alpha通道),实现软分割(Soft Segmentation)。对于一张图I, 我们感兴趣的人像部分称为前景F,其余部分为背景B,则图像I可以视为F与B的加权融合:I = alpha * F + (1 - alpha) * BI=alpha∗F+(1−alpha)∗B,而抠图任务就是找到合适的权重alpha。
2025-03-27 15:26:29
496
原创 vLLM部署多模态大模型
vLLM 是一个高效的推理和部署框架,专为大规模语言模型(LLM)优化。它采用 PagedAttention 技术,显著提高 GPU 显存利用率,支持高吞吐量推理。vLLM 兼容 Hugging Face Transformers 和 OpenAI API 接口,便于集成现有模型。其高效的 KV 缓存管理减少重复计算,适用于流式生成、批量处理和多用户推理场景。vLLM 还支持 FlashAttention,可进一步提升推理速度。
2025-03-19 18:42:42
1112
原创 Swift实战(微调多模态模型Qwen2.5 vl 7B)
本教程利用Swift框架微调Qwen2.5 vl 7B模型,是用的数据集是OCR识别数据集,一共10万张图片。
2025-03-18 10:59:48
1614
8
原创 多模态大模型Qwen2.5 vl本地部署指南
Qwen2.5-VL 是通义千问系列的最新多模态大模型,具备图文理解、视觉推理、文档解析等强大能力,广泛应用于智能搜索、内容生成、企业文档处理等领域。🔹 主要功能✅ 多模态问答:解析图片、图表、文档,回答问题,支持 OCR 识别。✅ 复杂文档解析:提取发票、合同、PPT、表格等文件中的结构化信息。✅ 高级视觉推理:理解图像中的关系,如因果推理、数据分析。✅ 智能摘要与生成:自动生成图片描述、文档摘要,提高信息获取效率。
2025-03-11 16:59:16
2121
原创 Cursor让编程变得像聊天一样简单
在编程的世界里,Cursor + 大模型 正在改变开发者的工作方式。Cursor 让代码编写像聊天一样轻松,自然语言即可生成高效、可读的代码,同时还能即时调试、优化。结合强大的 AI 大模型,你可以快速理解复杂逻辑、自动补全代码、生成测试用例,甚至优化性能,极大提升开发效率。无论是新手学习编程,还是资深工程师加速研发,Cursor 都能提供智能支持,减少重复劳动,让你专注于创新。如果你还没试过,赶快体验,让 AI 成为你的得力助手,让编程变得更高效、更有趣!
2025-03-11 15:31:19
529
原创 文档矫正算法:DocTr++
论文提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。(a)包含完整文档边界,(b)包含部分文档边界,(c)不包含文档边界。算法框架如下:对于任意弯曲的文档,作者首先通过CNN抽取特征,然后通过transformer结构进行编码和解码,最后用Flow Head预测偏移场,用偏移场矫正弯曲图片。
2024-09-23 17:43:01
1133
原创 如何快速从测试代码中导出onnx,并对比torch与onnx的对比结果
当我们的测试代码有很多依赖,或者训练测试代码在一起时,如何快速地导出onnx?
2024-05-23 19:55:28
445
1
原创 模拟相机拍照——对文档进行数据增强
这里介绍的就是文档数据增强,用标准文档模拟相机拍照场景。该方法不仅能用于文档各场景的数据增强,用于OCR检测识别等任务;还能合成各种图片训练对,用于文档去阴影、文档去摩尔纹、文档弯曲矫正等各项任务。然而,当图片是手机拍照获取的,图片中往往有阴影、摩尔纹、弯曲。原理:利用渲染工具(推荐blender),渲染出各种弯曲、阴影、摩尔纹,然后再pdf图片上进行合成。那么,如何通过标准的文档,获得类似相机拍照的图片呢?欢迎小伙伴们技术交流~
2024-04-18 17:32:27
1106
原创 python推理代码跨平台部署
我们经常训练好的模型需要部署,有时候算法组和工程组是分开的,这时候就需要我们提供C++的前后处理逻辑,这时怎么调试我们的C++代码呢?模型预测的结果是一个两通道的Mat,我们首先把它保存成yaml形式,比如:offset.yaml。解决方法:把模型推理的结果保存成C++可加载的形式,即可调试C++后处理代码。接下来,你就能流畅的写完你的后处理代码,打包交付啦!
2024-01-19 12:07:10
599
原创 基于K-Means的图片聚类算法实战
我们通常遇到一个问题,当很多图片放在一个文件夹中,要把这些文件夹中的图片按规律分为几类。当图片比较少时,我们可以手动完成,但是当图片的数量是几千甚至几万时,手动挑选图片的工作量就太大了。下面是一个例子,./imgs中保存了很多猫和狗的图片,运行脚本后,就把猫和狗的图片分开,分别保存在./0 和 ./1 两个文件夹中。因此,需要一个算法对图片进行自动化分类并保存,也就是本文的《基于K-Means的图片聚类算法实战》。
2023-12-11 11:47:34
1152
原创 dewarp:数据变换
注:cv2.remap() 函数的作用是把img,通过bm_flow映射成新的图片。bm_flow其实就是一个映射,把原始图像上每个像素点映射到新的图片中。输出图片:dewarp_img.jpg。输入图片:test.jpg。前向场:test.npy。
2023-11-16 12:26:34
667
2
原创 DALL-E2原理解读——大模型论文阅读笔记五
论文:https://cdn.openai.com/papers/dall-e-2.pdf项目:https://openai.com/dall-e-2。
2023-06-20 10:14:51
1954
1
原创 Visual ChatGPT原理解读——大模型论文阅读笔记四
论文:https://arxiv.org/abs/2303.04671代码:https://github.com/microsoft/TaskMatrix。
2023-06-20 10:00:21
1965
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人