
图像算法
文章平均质量分 58
全息数据
用数据拟合世界。
展开
-
TensorRT【详解】
参考:1、TensorRT Docker pytorch版本讲解:https://docs.nvidia.com/deeplearning/frameworks/pytorch-release-notes/rel-24-11.html#rel-24-11原创 2025-02-11 19:12:17 · 188 阅读 · 0 评论 -
使用人体关键点驱动FBX格式虚拟人原理【详解】
1、标准化向量: 将向量 A 和 B 标准化为单位向量 uA 和 uB。2、计算点积和叉积: 获取向量 uA 和 uB 之间的夹角信息(余弦值和正弦值)。3、处理数值稳定性: 限制点积值在 [-1, 1] 范围内,确保计算的准确性。原创 2024-10-14 17:44:57 · 1110 阅读 · 0 评论 -
相机坐标系和世界坐标系的转换以及图像坐标系和像素坐标系的转换【详解】
什么是相机标定?空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,需要建立相机成像的几何模型这些几何模型参数就是相机参数这个求解参数的过程就称之为相机标定(或摄像机标定)什么是世界坐标系由于摄像机与被拍摄物体可以放置在环境中任意位置,这样就需要来表示摄像机和被摄物体的位置,这个在环境中建立一个坐标系,坐标系就成为世界坐标系什么是相机坐标系也是一个三维直角坐标系,原点位于镜头光心处,x、y轴分别与相面的两边平行,z轴为镜头光轴,与像平面垂直,如下图所示为啥要把世界坐标系变到相机坐标系。原创 2024-09-29 15:49:50 · 3845 阅读 · 0 评论 -
数字人模型收藏的链接【计算机图形学之数字人驱动】
文章目录1、FBX格式的数字人/虚拟人模型链接:https://www.mixamo.com/#/?page=3&type=Character原创 2024-09-13 09:16:00 · 355 阅读 · 0 评论 -
一文解答Swin Transformer + 代码【详解】
下面是Swin Transformer论文的Abstract,原创 2024-09-09 19:09:05 · 1026 阅读 · 0 评论 -
Vision Transformer (ViT) + 代码【详解】
虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉领域的应用仍然有限。在 Vision 中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯 Transformer 可以在图像分类任务中表现良好。原创 2024-09-03 17:01:59 · 4446 阅读 · 2 评论 -
Self Attention(自注意力机制) | Multi-Head Attention【详解】
attention和推荐算法具有相似性,推荐的机制大致如下:在搜索框输入商品名称键盘,后台会根据你输入的商品名称和商品的标签或title进行匹配,你输入的商品名称为query,商品的标签或title为key,query和key做计算后为相似度,后台会根据商品的一些特性,比如销量,好评度来进行商品排序,特性被称为value,相似度与value做计算后为总分。计算,得到的 q 和 k 的矩阵的维度都是 1x2,v 矩阵的维度是 1x3,每组的 q 乘以 k 的转置的维度是 1x1的,再除以。原创 2024-08-27 16:22:01 · 1115 阅读 · 0 评论 -
成功解决:RuntimeError: CUDA error: no kernel image is available for execution on the device
安装的 PyTorch 版本和 CUDA 版本不兼容。可以重新安装与系统上 CUDA 版本匹配的 PyTorch 版本。CUDA 版本与 GPU 驱动程序或 PyTorch 安装的 CUDA 编译版本不兼容。安装完成后,就可以完美解决这个Bug!原创 2024-08-23 09:44:21 · 4219 阅读 · 0 评论 -
Mediapipe holistic pose 以及 blazepose 的前端开发
1、blazepose:https://github.com/tensorflow/tfjs-models/tree/master/pose-detection/src/blazepose_mediapipe原创 2024-08-21 13:38:08 · 284 阅读 · 0 评论 -
DDPM | 扩散模型代码详解【较为详细细致!!!】
左图是Transformer的Positional Embedding,行索引代表第几个单词,列索引代表每个单词的特征向量,右图是DDPM的Positional Embedding,DDPM的Positional Embedding和Transformer的Positional Embedding的。另一个区别是DDPM的Positional Embedding并没有按照奇数位和偶数位进行拼接,而是按照前后的sin和cos进行拼接的,虽然拼接方式不同,但是最终的效果是一样的。这是下采样模块的解释,原创 2024-08-19 17:31:15 · 4507 阅读 · 3 评论 -
Positional Encoding | 位置编码【详解】
transformer的作者刚开始说固定的位置编码和可学习的位置编码的效果是差不多的,后来证明固定的位置编码没有太大的必要,还不如省事直接使用可学习的位置编码,如下图,设置token的数量为10,token的特征向量长度为128,偶数项和奇数项的位置编码公式如下图所示,代码中,token_num是句子中的单词数量,embed_dim表示每个单词的特征向量长度,将对应位置的位置编码直接加在输入的单词上,如下图中的最后一行,为什么 attention 并不能赋予 token 位置信息?原创 2024-08-14 15:35:56 · 2547 阅读 · 0 评论 -
YOLOV5检测+追踪使用deepstream部署(c++版)
DeepStream是一个基于NVIDIA GPU和TensorRT的开源视频分析框架。它提供了一个端到端的、可扩展的平台,可以处理多个视频和图像流,并支持实时的人脸识别、车辆识别、物体检测和跟踪、行为分析等视觉分析任务。DeepStream可以通过在不同的节点上进行分布式部署来实现高吞吐量和低延迟的处理,从而满足各种应用场景的需求,如智能城市、智能交通、工业自动化等。Deepstream稳定高效的读流和推流能力;Deepstream内置的目标追踪算法(deepsort等)原创 2024-04-16 15:25:35 · 3777 阅读 · 5 评论 -
基于BatchNorm的模型剪枝【详解+代码】
如下图所示,每个conv-layer会被计算相应的channel scaling factors,然后根据channel scaling factors筛选conv-layer,达到模型瘦身的作用,图中的1.170,0.001,0.290等就是下面我们将要介绍的学习参数。L2求导为:θ,梯度下降过程越来越慢,相应的权重参数都接近0,起到平滑的作用,值是1.17,1.16,1.15等,那如何筛选比较重要的。图中的1.170,0.001,0.290等就是学习参数。越小,其对应的特征图越不重要,原创 2024-02-08 11:38:33 · 2830 阅读 · 1 评论 -
模型剪枝详解【学习笔记】
参考文献:原创 2023-12-29 10:24:03 · 601 阅读 · 0 评论 -
YOLOV5 C++部署的人员检测项目,包括CUDA编程,PTQ校准,jetson部署,开发后处理【C++深度学习部署(十一)】
需要在有界面的主机上安装,远程ssh无法使用窗口# 建议使用conda虚拟环境 # 安装 pip install labelImg # 启动 labelImg深度学习量化就是将深度学习模型中的参数(例如权重和偏置)从浮点数转换成整数或者定点数的过程。这样做可以减少模型的存储和计算成本,从而达到模型压缩和运算加速的目的。如int8量化,让原来模型中32bit存储的数字映射到8bit再计算(范围是[-128,127])。加快推理速度:访问一次32位浮点型可以访问4次int8整型数据;原创 2023-11-21 17:26:53 · 2080 阅读 · 1 评论 -
openpose姿态估计详解【学习笔记】
整体框架如下,1张图片经过CNN网络后分成2个网络,Parts Detection网络是预测关键点,Parts Association网络是预测方向,人体18个关键点总共需要19个不同的方向,而确定方向至少需要1个平面,即。stage越多相当于层数越深,模型感受野越大,姿态估计需要更大的感受野,因为进行关键点检测需要更多关于人体的信息,所以感受野越大则人体的信息越多,关键点检测越能检测准确。在本项目中,需要检测人体18个关键点,除了下图所标注的17个关键点外,还有1个脖子关键点。2、姿势的‘亲和力’向量。原创 2023-08-15 15:35:47 · 7421 阅读 · 0 评论 -
Pytorch分布式训练【详细】
参考:,原创 2023-04-29 14:44:53 · 160 阅读 · 0 评论 -
Nvidia Tao 【总结】
1、Tao:迁移,剪枝,支持onnx模型导入,集成在deepstream部署;2、导入onnx模型,只针对算子,不分是否为分类和分割、检测模型;5、部署问题:在哪个卡上做部署,就在哪个卡上做trt转换;4、onnx可以转到Tao,但Tao不能转化成onnx;3、vota不支持int8;原创 2023-03-20 15:35:16 · 449 阅读 · 0 评论 -
QAT(Quantization Aware Training)量化感知训练(二)【详解】
...原创 2023-03-09 11:51:42 · 754 阅读 · 0 评论 -
QAT量化感知训练(一)【详解】
......原创 2023-02-17 17:48:42 · 1967 阅读 · 0 评论 -
python中Path函数讲解【详细】
参考:链接1原创 2023-01-28 16:06:25 · 14455 阅读 · 0 评论 -
命令行传递参数 argparse.ArgumentParser解析
参考:链接1原创 2023-01-28 16:04:42 · 169 阅读 · 0 评论 -
centernet 数据处理
【代码】centernet 数据处理。原创 2023-01-06 19:00:20 · 39 阅读 · 0 评论 -
YoloV7 office原代码解读
参考:参考:参考:参考:参考:,原创 2023-01-04 17:33:27 · 273 阅读 · 0 评论 -
YoloV5,V6,V7之比较
3、Cls部分,每个真实框对应的先验框,获取到每个框对应的先验框后,取出该先验框的种类预测结果,根据真实框的种类和先验框的种类预测结果计算交叉熵损失,作为Cls部分的Loss组成。3、Cls部分,每个真实框对应的先验框,获取到每个框对应的先验框后,取出该先验框的种类预测结果,根据真实框的种类和先验框的种类预测结果计算交叉熵损失,作为Cls部分的Loss组成。标注数据的类别需要转成数字,如0、1等,转成后的yolo格式如下,每1行代表一个物体,依次表示为:类别、x、y、w、h。原创 2022-12-16 10:46:10 · 557 阅读 · 0 评论 -
如何从json格式转为xml格式(训练yolo模型数据)
【代码】如何从json格式转为xml格式(训练yolo模型数据)原创 2022-12-12 17:27:43 · 3790 阅读 · 2 评论 -
YoloV7目标检测(Pytorch官方版)【这也许是你见到最详细的博文!!!】
主干网络示意图如下,其实采用的和YoloV3、YoloV4、YoloV5类似的网络结构代码如下,多分支模块堆叠的类名为:Multi_Concat_Block输出:2.2 下采样网络结构结合了maxpooling和2 ×\times× 2步长的卷积代码如下,下采样结构类名为Transition_Block,输出:2.3 整个backbone代码整个主干网络实现代码为:输出:3、FPN特征金字塔backbone与FPN以及head代码:输出:原创 2022-12-07 20:38:03 · 11628 阅读 · 4 评论 -
YoloV6【详解】
无原创 2022-12-05 14:14:21 · 483 阅读 · 0 评论 -
crop图片后,同时修改物体相应的坐标
【代码】crop图片后,同时修改物体相应的坐标。原创 2022-11-21 18:04:53 · 351 阅读 · 0 评论 -
ConvNeXt网络【详解】
无原创 2022-11-15 14:53:48 · 532 阅读 · 0 评论 -
世界坐标系、相机坐标系和图像坐标系的转换【详解】
无原创 2022-11-11 20:05:06 · 250 阅读 · 0 评论 -
使用GIMP抠图
GMIP原创 2022-11-07 10:24:34 · 4082 阅读 · 2 评论 -
什么是卷积,卷积到底卷了啥【详解】
无原创 2022-11-07 00:13:14 · 256 阅读 · 0 评论 -
HRNet【详解】
参考:,原创 2022-10-16 16:53:31 · 285 阅读 · 0 评论 -
调整json文件
【代码】调整json文件。原创 2022-10-16 16:33:30 · 365 阅读 · 0 评论 -
修改代码标记
工作中会对代码进行修改,修改完后可能不容易找到原来修改的地方,所以在这里统一标记一下,以防混乱;原创 2022-10-13 17:00:54 · 278 阅读 · 0 评论 -
python如何截取视频中的某一段
【代码】python如何截取视频中的某一段。原创 2022-10-11 17:53:44 · 2240 阅读 · 2 评论 -
【数据处理】如何在图片中随机采样
【代码】【数据处理】如何在图片中随机采样。原创 2022-09-29 16:07:38 · 553 阅读 · 0 评论 -
图像识别检测之数据处理【总结】
如图这种处于临界的图片就不需要处理,不是好素材。原创 2022-09-19 10:21:43 · 753 阅读 · 0 评论 -
深度学习 神经网络 激活函数【详解】
激活函数原创 2022-09-15 20:11:05 · 572 阅读 · 0 评论