- 博客(290)
- 收藏
- 关注

原创 系列文章汇总
目录目标检测算法源码解析:MaskRCNN源码解析:MaskRCNN源码解析1:整体结构概述MaskRCNN源码解析2:特征图与anchors生成MaskRCNN源码解析3:RPN、ProposalLayer、DetectionTargetLayerMaskRCNN源码解析4-0:ROI Pooling 与 ROI Align理论MaskRCNN源码解析4:头网络(Ne...
2020-06-16 20:38:50
34898
4

原创 个人微信公众号及个人GitHub信息
写技术博客,主要是作为自己技术积累的一个笔记,不求与人相比,但求不断超越自己!加油!优快云个人专栏信息现在不能用了,但是有些信息需要连接一下,方便使用,所以在专门放一篇文章吧。1,点击访问个人GitHub2,点击访问个人知乎3,点击访问个人优快云博客主页4,点击访问个人微信公众号 欢迎各位扫码关注我的微信公众号: 有好多小伙伴在公众号给我留言...
2019-06-20 11:16:20
35112
2

原创 人工智能,机器学习, 深度学习框架图
1、深度学习框架图: 2、神经网络要解决的问题2.1、基于网络功能函数的定义(网络模型的选择,激励函数的选择,优化方法的选择)–>网络模型好坏的评估(损失函数的定义)–>选出一
2018-09-14 15:36:14
36662
1
原创 多模态大模型:视觉模型与LLM的结合之路一:Blip2、LLaVA
模型结构上:LLaVA仅用简单的线性链接层就完成了视觉模型与LLM的结合,结合方法简单但有效。训练数据上:LLaVA给出了一种使用ChatGPT造训练数据的方法。虽然类似的方法在语言大模型的训练中较为常见,但该文是在多模态大模型上的首次尝试。训练方法上:作者先采用了大量的易学数据训练少量参数让模型学会认图,再用少量难学的数据训练大量参数让模型学会基于图像的多轮对话和逻辑推理能力。
2025-08-21 21:30:00
1002
原创 多模态大模型:视觉模型与LLM的结合之路二:MiniGPT-4、QWen-VL
QWenVL提出来能力增强的训练阶段,并使用了B级别的对齐训练数据,M级别的能力增强数据和K级别的指令跟随数据,训练多模态大模型。能力增强训练可能较为耗费资源但能极大程度提升模型效果。后续自己构建大模型时可以考虑构建和下游任务接近的训练任务用于能力增强训练。
2025-08-21 21:30:00
526
原创 识别一切-RAM-Recognize Anything(论文翻译)
我们提出了用于图像标注的强大基础模型 —— 识别万物模型(RAM),它开创了该领域的一种全新范式。RAM展现出了以高准确率识别任意类别的零次学习能力,超越了全监督模型以及诸如 CLIP 和 BLIP 等现有通用型方法的性能表现。RAM代表了计算机视觉领域大规模模型的一项重大进步,具备增强任何视觉任务或数据集识别能力的潜力。
2025-08-20 21:30:00
576
原创 TAP:对任何事物进行分割、识别和描述
TAP旨在通过提示功能,从分割任意物体迈向感知任意事物。我们希望这项工作能够启发学界开发出更紧凑、更有意义的视觉基础模型。
2025-08-20 21:30:00
481
原创 SEEM-Segment Everything Everywhere All at Once(论文翻译)
Segment Everything Everywhere All at Once(SEEM)[NeurIPS 2023] 是一个创新的开源项目,旨在实现对图像和视频中的对象进行高效且精确的分割。该项目由UX-Decoder团队开发,支持多种提示类型,包括点、标记、框、涂鸦、图像片段、文本和音频等,用户可以通过这些提示轻松地对图像进行分割,并且可以组合使用多种提示类型。
2025-08-19 21:30:00
709
原创 首个目标检测大模型(识别万物):DINO-X(论文翻译)
DINO-X,2024年11月20号IDEA Research 开发的具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。为了使长尾物体检测变得简单,DINO-X 扩展了其输入选项以支持文本提示、视觉提示和自定义提示。
2025-08-18 21:30:00
819
原创 目标检测算法-NanoDet
NanoDet凭借其超轻量级、高速的特点,为移动端目标检测开辟了新的可能。通过PyTorch版本的实践,开发者可以轻松地将NanoDet集成到自己的项目中。未来,随着深度学习技术的不断发展,我们期待更多像NanoDet这样优秀的轻量级模型出现,以满足更多场景下的实时目标检测需求。
2025-01-06 15:22:25
1186
原创 TAP:对任何事物进行分割、识别和描述
TAP:Tokenize Anything via Prompting,发表于2023年。我们提出了一种统一的、可提示的模型,能够同时对任何事物进行分割、识别和描述。与 SAM 不同,我们旨在通过视觉提示构建一个通用的多功能区域表示。为实现这一目标,我们使用大量的分割掩码(如 SA-1B 掩码)以及来自具有 50 亿参数的预训练 CLIP 模型的语义先验来训练一个可泛化的模型。具体来说,我们通过给每个掩码添加一个语义标记来构建一个可提示的图像解码器。语义标记负责在预定义的概念空间中学习语义先验。 通过对掩码
2025-01-06 15:01:02
1003
原创 识别一切-RAM-Recognize Anything(论文翻译)
在训练阶段,识别头学习预测从文本中解析出来的标签,而在推理阶段,它充当图像到标签的桥梁,通过预测标签为图像字幕提供更明确的语义指导。400 万图像的设置包含两个人工标注的数据集,即 COCO [16](含 11.3 万张图像、55.7 万个字幕)和视觉基因组 [13](含 10.1 万张图像、82.2 万个字幕),以及两个大规模的基于网络的数据集,即概念字幕 [6](含 300 万张图像、300 万个字幕)和 SBU 字幕 [21](含 84.9 万张图像、84.9 万个字幕)。
2025-01-06 14:57:48
1277
原创 SEEM-Segment Everything Everywhere All at Once(论文翻译)
与之前诸如 SimpleClick 等类别无关的交互式分割工作以及同期的 SAM 工作不同,我们的模型能够以零样本方式为各种提示组合的掩码生成语义标签,因为我们的视觉提示特征在联合视觉 - 语义空间中与文本特征对齐。值得注意的是,与现有的交互式模型不同,SEEM 是首个不仅支持经典分割任务,还支持包括文本、点、涂鸦、框和图像在内的多种用户输入类型的界面,如表 2 和表 5 所示,它具备很强的组合能力。是从目标图像(即 )或参考图像中提取的特征图, {点,框,涂鸦,多边形} 是用户指定的采样位置。
2025-01-06 14:47:49
1478
原创 关键点检测算法-TinyPose
未来,随着技术的不断发展和优化,PP-TinyPose将进一步提升检测精度和稳定性,为AI虚拟健身教练的普及和发展提供更加强有力的支持。例如,某智能健身APP利用PP-TinyPose技术,实现了用户动作的实时检测与反馈,为用户提供了个性化的训练指导和建议。实时动作检测与计数:通过检测人体关键点的位置变化,PP-TinyPose能够实时识别用户的健身动作,并进行计数。随着人工智能技术的飞速发展,AI虚拟健身教练应运而生,其中PP-TinyPose作为智能健身动作识别的关键技术,正逐步改变着人们的健身体验。
2025-01-06 14:25:24
1564
原创 关键点检测算法-RTMPose
近年来,2D 姿态估计的研究在公开数据集上取得了出色的成绩,但是它在工业界的应用仍然。为了让前沿姿态估计算法在工业界落地,我们通过实验研究了多人姿态估计算法的五个方面:范式、骨干网络、定位算法、训练策略和部署推理,基于 MMPose 提出了一个高性能的实时多人姿态估计框架 RTMPose。我们的 RTMPose-m 模型在 COCO 上取得 75.8%AP,在 Intel i7-11700 CPU 上达到 90+FPS,在 NVIDIA GTX 1660 Ti GPU 上达到 430+FPS。
2025-01-06 14:20:06
1886
1
原创 关键点检测算法-OpenPose
我们提出了一个方法,能够在一张图中高效的识别出多人的2D姿态。该方法运用了非参数表示(non-parametric representation),我们称之为部分亲和域(PAFs:Part Affinitu Fields),用它来学习怎样将身体部分和个体联系起来。这个结构编码了全局信息,并允许一个贪婪的从底向上的解析步骤,这在实现实时性能时,有着高度的精准且无须考虑图像中人的数量。这个结构被设计成相同顺序预测过程的两个分支,来联合学习部分位置(关节点)以及它们之间的关联(相邻的关节点的连接关系)。
2025-01-06 14:15:24
3772
原创 MMPose关键点检测实践(三)MMDeploy模型部署
本文参考:同济子豪兄创建conda虚拟环境安装mmpose安装最新版本mmpose会有问题转换代码转换结果转换代码转换过程转换结果。
2025-01-06 11:52:05
676
原创 MMPose关键点检测实践(二)训练目标检测和关键点检测模型
上一篇文章我们利用MMPose进行了关键点检测实践,本篇文章我们从训练模型开始,进一步进行关键点检测实践。由于我们实践的是自上到下的关键点检测模型,所以需要训练一个目标检测模型。先用目标检测模型得到相关区域的框,然后将相应的框送给关键点检测模型。因此我们需要先安装一下mmdetection。本文主要参考:同济子豪兄mmdetection安装参照,主要需要注意的是pytorch的版本要和对应的硬件匹配,不要会报各种问题。我的安装版本(A30, CUDA Version: 11.4 )验证安装结果。
2025-01-06 11:36:20
1482
原创 MMPose关键点检测实践(一)
这一步,需根据自己的硬件环境,按照以下文档安装即可,最大的变数就是不同的硬件,对应的软件版本不一样,这个因人而异,没有统一版本。代码的主要思路是加载目标检测模型,获取图片中人的检测框,然后调用关键点检测模型,针对每个人的检测框,将检测框内的人体关键点检测出来。hrnet姿态估计模型配置文件:(路径为mmpose对应的路径。检测模型配置文件:(路径为mmpose对应的路径)配置文件:(路径为mmpose对应的路径)配置文件:(路径为mmpose对应的路径)安装完环境后,下载mmpose代码到本地。
2025-01-06 11:20:17
496
1
原创 关键点检测算法-HRNet
本篇文章首发于微信公众号:人工智能与图像处理 关键点检测算法-HRNet此文较长!此文较长!此文较长!High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出,发表在CVPR2019。文章全称:Deep High-Resolution Representation Learning for Human Pose Estimation。HRNet属于--2D姿态估计-->单人检测-->基于热力图 类型的关键点检测。模型的主要特点是在整个过程中特征图(Feature Map)始终保持高分
2025-01-06 10:33:31
8224
原创 人体骨骼关键点检测算法-数据集、常见论文归纳
本文主要介绍人体关键点检测领域,包括单人2D人体骨骼关键点检测算法、多人2D人体骨骼关键点检测算法以及3D人体骨骼关键点检测算法。这些技术在计算机视觉领域中具有广泛应用,包括姿态估计、行为识别、人机交互、虚拟现实、智能家居和无人驾驶等领域。
2024-12-16 11:10:13
31408
原创 首个目标检测大模型(识别万物):DINO-X(论文翻译)
DINO-X,2024年11月20号IDEA Research 开发的具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。为了使长尾物体检测变得简单,DINO-X 扩展了其输入选项以支持文本提示、视觉提示和自定义提示。
2024-12-02 10:11:17
3151
原创 关键点检测算法
关键点检测(Keypoint Detection)是一种计算机视觉技术,旨在定位对象或人体上特定点的位置。这些点通常是具有重要意义的解剖学或结构特征,例如人的关节点(肘部、膝盖、肩膀等)、面部特征点(眼睛、鼻子、嘴巴等)或物体的关键点(例如汽车的车轮、门把手等)。
2024-11-19 20:30:00
4348
3
原创 几个目标跟踪算法
目标跟踪算法是一种计算机视觉技术,用于在视频或图像序列中检测并跟踪移动的目标,如人、车辆或物体。这些算法利用图像处理和机器学习技术,通过分析连续帧之间的变化,识别并跟踪目标的位置、轨迹和其他属性。这些算法在监控、自动驾驶、增强现实等领域有广泛应用。常见的目标跟踪算法包括卡尔曼滤波器、粒子滤波器、相关滤波器以及基于深度学习的算法,如卷积神经网络(CNN)和循环神经网络(RNN)。
2024-11-01 09:50:57
4050
原创 模型轻量化之模型剪枝-Pruning
学术界的 SOTA 模型在落地部署到工业界应用到过程中,通常是要面临着低延迟(Latency)、高吞吐(Throughpout)、高效率(Efficiency)的挑战。而模型压缩算法可以将一个庞大而复杂的预训练模型转化为一个精简的小模型,从而减少对硬件的存储、带宽和计算需求,以达到加速模型推理和落地的目的。近年来主流的模型压缩方法包括:模型量化、模型剪枝、知识蒸馏、轻量化网络设计、张量分解等。
2024-10-29 09:37:36
4486
原创 目标检测算法-YOLOV11解析
YOLOv11是由Ultralytics公司开发的新一代目标检测算法,它在之前YOLO版本的基础上进行了显著的架构和训练方法改进。整合了。
2024-10-24 20:29:04
15910
原创 不同框架下跑yolov10(pt、onnx_runtime、tensorrt)
不同框架下跑yolov10(pt、onnx_runtime、tensorrt)
2024-09-02 10:14:39
5361
原创 深度学习模型量化方法
深度学习模型量化是一项重要的技术,旨在通过减少网络参数的比特宽度(比特宽度是指在特定时间内,数据传输过程中每个比特所占用的时间或空间)来减小模型大小和加速推理过程,同时保持模型性能,以便将模型部署到边缘或低算力设备上,实现降低成本、提高效率的目标。
2024-09-02 10:13:25
33887
原创 LangChain
在人工智能领域的不断发展中,语言模型扮演着重要的角色。特别是大型语言模型(LLM),如 ChatGPT,已经成为科技领域的热门话题,并受到广泛认可。在这个背景下,LangChain 作为一个以 LLM 模型为核心的开发框架出现,为自然语言处理开启了一个充满可能性的世界。借助 LangChain,我们可以创建各种应用程序,包括聊天机器人和智能问答工具。LangChain之所以大火,是因为它提供了一系列方便的工具、组件和接口,大大降低了 AI 应用开发的门槛,也极大简化了大模型应用程序的开发过程。
2024-09-02 10:01:24
2850
原创 目标检测算法-YOLOV9解析(附论文和源码)
YOLOv9引入了两种新的架构:YOLOv9和GELAN,这两种架构都可以从论文发布的YOLOv9 Python库中使用。YOLOv9有四种模型,按参数个数排序是:v9-S、v9-M、v9-C、v9-E。目前v9 - S和v9 - M的权重暂不可用。其中最小的模型在MS COCO数据集的验证集上达到了46.8 %的AP,而最大的模型达到了55.6 %。
2024-04-15 09:44:46
8650
原创 目标检测算法-transformer系列-ViT(Vision Transformer)(附论文和源码)
目标检测算法-transformer系列-ViT(Vision Transformer)(附论文和源码)
2023-09-29 20:30:00
6949
原创 目标检测算法-transformer系列-UP DETR(附论文和源码)
目标检测算法-transformer系列-UP DETR(附论文和源码)
2023-09-28 20:30:00
3594
原创 目标检测算法-transformer系列-Deformable DETR(附论文和源码)
目标检测算法-transformer系列-Deformable DETR(附论文和源码)
2023-09-27 20:30:00
5465
原创 目标检测算法-transformer系列-DETR论文解析(附论文与源码)
目标检测算法-transformer系列-DETR论文解析(附论文与源码)
2023-09-23 11:00:00
8042
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人