- 博客(224)
- 资源 (7)
- 收藏
- 关注
原创 Pytorch与深度学习 #10.PyTorch训练好的模型如何部署到Tensorflow环境中
在这个AI时代,各大厂商都在主推自家的AI框架,因此知名和不知名的大大小小可能十来种。但是我们选型的时候,一般首先考虑是Google家的Tensorflow呢还是Meta家的Pytorch。
2024-10-25 09:55:47
556
翻译 论文研读14 Digging Into Self-Supervised Monocular Depth Estimation
像素级别的真实深度数据在大规模获取时具有挑战性。为了克服这一限制,自监督学习已成为训练单目深度估计模型的有前途的替代方案。在本文中,我们提出了一系列改进,这些改进使得与现有自监督方法相比,无论是定量还是定性深度图都有了提升。单目自监督训练的研究通常探索越来越复杂的架构、损失函数和图像形成模型,这些最近都帮助缩小了与完全监督方法之间的差距。我们展示了一种令人惊讶的简单模型及其相关的设计选择,能够生成更优的预测。
2024-10-11 10:06:12
473
翻译 论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 3
我们使用了MPI-INF-3DHP [33] 训练集中的14个可用摄像机视角中的12个(仅使用了3个俯视图中的一个),并创建了40万张MuCo-3DHP的复合帧,其中一半未进行外观增强。缩放增强、边界框抖动和围绕摄像机最近主体的裁剪的组合导致了许多带有边界截断的示例,除了由于合成而自然发生的人与人之间的遮挡。我们可以看到,对于大多数序列,我们的方法在所有关节类型上都取得了更高的准确性,仅在某些序列(Test-Seq18,19,20)中的某些关节类型上表现略逊于LCR-net。
2024-10-08 12:25:02
332
翻译 论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 2
我们方法的核心是一种新颖的公式化方法,使我们能够在场景中即使存在强遮挡的情况下,使用一次完全卷积网络的前向传递来估计多人的姿态。我们的方法基于位置图公式化 [34],通过在各自的2D关节像素位置推断3D关节位置,进一步加强了3D姿态推理与图像证据之间的联系。我们首先回顾位置图公式化方法,然后描述我们的方法。位置图 [34]位置图是一个关节特定的特征通道,用于在关节的2D像素位置存储3D坐标x、y或z。对于每个关节,估计三个位置图以及一个2D像素位置热图。后者在图像平面上以置信度图的形式编码关节的2D像素位置
2024-10-08 12:18:43
230
翻译 论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 1
我们提出了一种新的单次方法,用于从单目RGB摄像头在一般场景下进行多人3D姿态估计。我们的方法使用了一种新颖的抗遮挡姿态图(ORPM),即使在被场景中其他人或物体部分严重遮挡的情况下,也能进行完整的人体姿态推断。ORPM输出固定数量的图,编码场景中所有人的3D关节位置。通过身体部位关联 [8],我们可以在不明确预测边界框的情况下推断出任意人数的3D姿态。为了训练我们的方法,我们引入了MuCo-3DHP,这是第一个展示复杂多人互动和遮挡的真实图像的大规模训练数据集。
2024-10-08 12:13:44
270
翻译 论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition3
该数据集包含 60 种不同的人类动作类别,分为三大类:日常动作、交互动作和健康相关动作。数据集总共有 56,880 个动作样本,这些样本由 40 位不同的受试者执行。每个动作样本包含 RGB 视频、深度图序列、3D 骨架数据和由三台 Microsoft Kinect v2 摄像机同时捕捉的红外视频。我们关注的 3D 骨架数据由每帧 25 个身体关节的 3D 位置组成。该数据集有两种评估协议:跨受试者 (CS) 和跨视角 (CV)。
2024-10-03 12:58:20
542
翻译 论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition2
3. 模型架构3.1 图卷积神经网络图卷积神经网络(GCN)是学习图结构数据表示的一种通用且有效的框架。各种 GCN 变体在许多任务上取得了最先进的结果。对于基于骨架的动作识别,设 Gt={Vt,Et}G_t = \{ V_t, E_t \}Gt={Vt,Et} 表示在时间 ttt 的单帧人类骨架图,其中 VtV_tVt 是 NNN 个关节点的集合,EtE_tEt 是骨架边的集合。节点 vtiv_{ti}vti 的邻居集合定义为:N(vti)={vtj∣d(vti,vtj)≤D} N(v_{ti
2024-10-03 12:29:30
293
翻译 论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition1
摘要基于骨架的动作识别是一个重要任务,要求从骨架序列中理解人体动作的运动特征。最近的研究表明,探索骨架序列的空间和时间特征对该任务至关重要。然而,如何有效地提取区分性的空间和时间特征仍然是一个挑战性问题。在本文中,我们提出了一种新颖的基于注意力增强图卷积LSTM网络(AGC-LSTM)用于从骨架数据中进行人体动作识别。所提出的AGC-LSTM不仅可以捕捉空间配置和时间动态中的区分性特征,还可以探索空间和时间领域之间的共现关系。
2024-10-03 10:22:02
260
翻译 论文研读 ——11. Attention Is All You Need 4/4
在WMT 2014英语-德语翻译任务中,大型Transformer模型(表2中的Transformer (big))超越了此前报道的最佳模型(包括集成模型)超过2.0 BLEU,创下了28.4的新最先进BLEU分数。该模型的配置列在表3的底部。训练在8块P100 GPU上耗时3.5天。即使是我们的基础模型,也超越了所有先前发布的模型和集成模型,而且其训练成本只是任何竞争模型的一小部分。Pdrop0.1。
2024-08-15 13:05:19
171
翻译 论文研读 ——11. Attention Is All You Need 3/4
x1...xnz1...zn, withxizi∈Rd在本节中,我们将比较自注意力层与常用于将一个变量长度符号表示序列x1...xn映射到另一个相同长度序列z1...zn的循环层和卷积层的各个方面,其中xizi∈Rd,例如典型序列转换编码器或解码器中的隐藏层。为了说明我们使用自注意力的动机,我们考虑了三个需求。第一个需求是每层的总计算复杂度。
2024-08-15 12:46:25
114
翻译 论文研读 ——11. Attention Is All You Need 2/4
x1...xnzz1...zn. Givenzy1...ym大多数竞争性的神经序列转换模型都采用编码器-解码器结构 [5, 2, 35]。在这种结构中,编码器将符号表示的输入序列x1...xn映射为连续表示的序列zz1...zn。给定z后,解码器则逐个生成符号的输出序列y1...ym。在每一步中,模型是自回归的 [10],即在生成下一个符号时,会将之前生成的符号作为额外的输入。
2024-08-13 15:13:41
168
翻译 论文研读 ——11. Attention Is All You Need 1/4
主流的序列转换模型通常基于复杂的循环神经网络或卷积神经网络,这些网络包括编码器和解码器。性能最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构,称为Transformer,它完全基于注意力机制,彻底摒弃了循环和卷积。在两个机器翻译任务上的实验表明,这些模型不仅在质量上优于现有模型,而且更易于并行化,所需的训练时间显著减少。在WMT 2014英译德翻译任务中,我们的模型达到了28.4的BLEU分数,相比现有的最佳结果(包括集合模型)提高了超过2个BLEU分数。
2024-08-13 13:09:52
186
原创 配置DeepStream Python Apps工程
Nvidia发布了一种可以使用Python开发Deepstream应用的套件,截止至当前支持的Deepstream版本是7.0. 目前已经发布至Github中,可以通过如下命令拉取该工具。接下来的内容中,讨论的都是支持Deepstream 7.0版本的deepstream_python_apps,当前版本是。,如果使用的是docker镜像,那么可以通过挂载的方式,把该项目挂到docker镜像中。如果要拉取一些较早的版本,比如支持Deepstream 6.4版本的代码,那么执行。以及其所需的依赖文件。
2024-07-18 12:39:51
650
原创 在Windows上配置DeepStream Docker
安装Ubuntu或其他你喜欢的Linux发行版。可以从Microsoft Store中选择并安装。确保你的Windows机器上安装了NVIDIA GPU驱动。重新启动计算机以完成安装。
2024-07-12 14:06:58
1268
原创 Ubuntu系统管理——如何编译Mosquitto
Mosquitto,也就是MQTT,是一种轻量级的IoT领域广泛使用的消息中间件。在Debian系Linux中,虽然可以使用apt安装MQTT但是在某些情况,比如说IoT设备属于定制设备,或者离线情况下,那么编译mosquitto就显得很有必要了。
2024-07-05 09:37:17
502
原创 WSL AI工具以及开发环境的准备
随着技术进步与完备,现在利用Windows进行AI或者算法原型的开发和研究已经逐渐成为一种可选项,甚至是一种极其推荐的方式。如果你本人对此也有兴趣,那么下面这些内容可能会对你有所帮助。
2024-06-23 23:34:57
1047
原创 信号采样基本概念 —— 7.数模转换(DAC & ADC)
通常来说,我们在设备上存储的数据是以二进制进行传输的,但是当我们试图将数据传输到更远的地方时,或者通过一些其他介质,例如WI-FI、蓝牙,同轴电缆、或者其他无线电信号进行远距离传输的时候,我们就需要把数据转化为模拟信号进行传输。常见的数模转换,例如对于一个8bit的数据来说,我们可以通过把电势划分成8个不同的等级来代表每一个位,如果一个位为1,那么对应的电势就会被调高,而如果为0,则对应的电势会被调低。通过6,7,8,9引脚分别输入数字信号和时钟输入,就可以在13和14引脚得到其对应的模拟信号。
2023-10-09 16:44:46
1097
翻译 论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (3/3)
在这篇论文中,我们提出了一种使用无处不在的Wi-Fi检测室内活动的方法,称为PCA-Kalman,并从商用现成的(COTS) Wi-Fi设备中提取CSI信号。进一步地,实验结果显示,在三个不同的测试区域,这种方法的检测率为95%。从图13可以看出,随着窗口大小的增加,三个系统的检测率都在增加,但当窗口大小超过某个设定的阈值时,人员的不同行为状态会导致CSI的时间差异。我们还注意到,除了在所有区域的区域3测试外,PCA取得了出色的结果,因为区域3距离发射机和接收机很远,导致信号中的人员变化不太明显。
2023-08-16 21:09:21
404
翻译 论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (2/3)
另外,为了行为检测的目的,我们生成了三个测试集,包括三个不同的测试区域。室内人体行为检测的基础设施由无线接入点(AP)组成,用于数据传输,监测点(MP)用于数据检索,以及一个用于数据处理的服务器。在我们的系统中,使用PCA-Kalman算法在C程序中处理获得的数据。最后,获得估计位置的状态。从图6中可以观察到,当测试者执行不同的操作时,CSI信号的变化显著不同。更重要的是,实时测试数据是在真实的实验环境中收集的。首先,我们让一名志愿者遍历所有的参考点,并在参考点上进行日常动作,如站立、跳跃、蹲下和坐下。
2023-08-13 21:46:38
248
翻译 论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (1/3)
开放获取人类行为检测在各种应用领域中变得越来越重要。在本文中,我们分别在视线环境、非视线环境和穿墙环境实验中提出了一种基于信道状态信息(CSI)和主成分分析(PCA)的无设备室内人类行为检测方法。我们将此方法分为两部分。首先是在线阶段。通过收集不同时间段的CSI原始数据包,并使用PCA算法的特性来减少原始CSI数据的维度,建立了一个指纹数据库。然后,通过卡尔曼滤波算法去除一些异常值,我们将获得更稳定的数据,并为对接实验做好充分准备。
2023-08-13 15:36:53
1044
原创 信号采样基本概念 —— 6. 卡尔曼滤波(Kalman Filtering)
在每次测量更新步骤中,卡尔曼滤波器将预测的状态向量 x’ 通过测量矩阵 H 映射到测量空间得到预测的测量值 z’,然后与实际测量值 z 进行比较,通过计算测量残差(实际测量值与预测测量值之间的差异)来更新状态估计。它的大小是 m × n,其中 m 是测量向量的维数(即实际测量的数量),n 是状态向量的维数(即系统的状态数量)。在大多数情况下,当我们的系统中存在大量随机信号,或者说不确定信号的时候,我们可能会需要一种滤波器来帮助我们过滤掉系统中的噪音,除了在先前文章中提到的基于滑动窗口的滤波器,
2023-07-24 03:09:47
2254
原创 信号采样基本概念 —— 5. 加权移动平均滤波(Weighted Moving Average Filtering)
加权移动平均滤波(Weighted Moving Average Filtering)是一种对移动平均滤波的改进,它在计算滑动窗口内样本的平均值时为不同的样本赋予不同的权重,以便更好地适应信号的变化。与移动平均滤波不同,加权移动平均滤波使用一个权重向量来对窗口内的样本进行加权平均。这个权重向量定义了每个样本在平均计算中的重要性。通常情况下,权重向量是根据一定的规则或特定的设计目标来确定的。线性权重:在滑动窗口中,最早的样本权重最小,最新的样本权重最大。
2023-07-19 22:59:57
5571
原创 信号采样基本概念 —— 4. 移动平均滤波(Moving Average Filtering)
除了FFT或Wavelet以外,对于一维信号,我们还可以使用类似移动平均滤波(Moving Average Filtering)实现denoising。是一种简单的信号滤波算法,用于减小信号中的噪声或去除高频成分,从而平滑信号。它基于对信号中一定窗口内数据的平均值进行计算。它的基本原理如下:给定一个包含 N 个样本的信号序列xnx[n]xn,其中 n 是样本的索引(从 0 到 N-1)。移动平均滤波通过在信号序列上滑动一个固定长度为 M 的窗口,并计算窗口内样本的平均值来进行滤波。ykx。
2023-07-18 09:53:36
13744
5
原创 数字图像学笔记 —— 19.肤色检测
在没有AI之前,肤色检测是计算机视觉的一项常见任务。其根本思路是划定一个颜色区域,只要属于该颜色区域的像素就认为属于肤色。但是这种方法的精确度不高,并且常常有错误的区域被误认为皮肤。尽管AI或者机器学习已经能够很好的从图片中识别出肤色部分。但是作为经典图像学任务,我想了想还是花点时间介绍肤色的常见识别算法。因此,在本文中我们介绍其中一种方法,将RGB图像转换到HSV色彩空间,然后在HSV空间中设置适当的阈值以检测肤色。《数字图像学笔记——1. 常用颜色空间转换》
2023-07-17 22:37:23
814
原创 数字图像学笔记 —— 18. 图像抖动算法
当图像的颜色深度较低,即每个像素可以表示的颜色数量有限时,图像的颜色表现力会受到限制,这可能会导致严重的颜色带状现象(banding)和颜色失真。例如,当前像素的右边像素将接收 7/16 的误差,下面一行的左边、中间和右边的像素分别接收 3/16、5/16 和 1/16 的误差。遍历图像的每个像素:对于图像中的每个像素,算法都会尝试找到最接近该像素颜色的颜色,然后将该像素颜色设置为该颜色。通过这种方式,抖动算法能够在颜色或灰度级别受限的情况下,模拟出更多的颜色或灰度等级,从而提高图像的视觉质量。
2023-05-30 23:35:49
5554
原创 Raspberry系统管理 —— 安装和配置OpenVINO
OpenVINO (Open Visual Inference and Neural Network Optimization) 是一个用于视觉推理和神经网络优化的工具包。它是一个开源的软件平台,可以用于加速神经网络的推理过程。OpenVINO可以在 CPU、GPU、VPU 和 FPGA 等多种硬件平台上运行,可以用于视频分析、计算机视觉和自然语言处理等领域。它可以帮助开发人员在不同的平台上有效地部署神经网络应用程序,从而提高模型的性能和效率。如何安装配置OpenVINO。
2023-05-21 12:58:10
1045
4
原创 浅聊矢量场 —— 4. 关于 Navier-Stokes方程的一些简单认识
Navier-Stokes 方程是用于描述流体运动的方程,可以看作是流体运动的牛顿第二定律FmaF = maFma的扩展。如果把流体的运动想象成由密度、体积都不可再分的无数个基本单元组成的「大集群」,那么就可以尝试通过对基本单元的运动进行分析求和后得到全部。那么我们从第二定律出发,可以得到∑F∑ma⃗Dmv⃗Dtm∂v⃗∂x∂x∂t∂v⃗∂y∂y∂t∂v⃗∂z∂z∂t∑F∑maDtDmvm。
2023-05-06 22:09:58
4253
1
原创 Linux工具技巧 —— Git的常见操作
Git是非常好用的一种离散式文件管理工具,之所以我说它是文件版本管理工具,因为我发现它本身用在文件同步上也非常方便好使。如果把代码本身当成一种文本来看待,你或许能明白我为什么这么说了。在Git以前,常见的版本管理工具有USB,硬盘,以及程序员专用的SVN,也就是行内人常提到的小乌龟🐢。所谓的版本控制工具,简而言之就是文件修改时,你可能在不同地方修改了不同内容,而每个内容都需要单独保存一份副本,而管理这些不同副本的工具,其中之一就是Git了。
2023-05-06 21:57:10
283
原创 数字图像学笔记 —— 17. 图像退化与复原(自适应滤波之「最小二乘方滤波」)
总之,约束最小二乘方滤波是一种非常强大的图像修复技术,它可以通过仅依赖于均值和方差的约束条件来估计未知的退化函数,并从退化的图像中恢复出尽可能接近原始图像的图像。对于上述图片来说,存在很明显的退化,而且我们也没有办法回到过去拍一张高清的照片,所以要想让照片得到修复,获得较好的视觉感受,维纳滤波在这里就无法使用了。维纳滤波(Wiener Filter),虽然是一种非常强大的退化图像还原算法,但是从实验过程我们也发现它存在着致命的缺陷,那就是要求输入退化系统的。,这是因为退化函数的总能量应该保持不变。
2023-03-05 16:10:00
1797
原创 机器学习知识总结 —— 21. 什么是主成分分析
在机器学习中,PCA(Principal Component Analysis,主成分分析)是一种常用的降维方法。它可以将高维数据降至低维,同时保留数据的最重要的特征,从而方便后续的分析和处理。PCA的基本思想是通过线性变换将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这样可以减少特征之间的冗余信息,从而达到降维的目的。比方说有这样一组高维数据,它输出的图像1是这样的。
2023-03-01 00:34:24
604
原创 机器学习知识总结 —— 20.使用朴素贝叶斯进行数据分类
作为一种监督学习分类方法,在上一章中我们已经介绍过它的数理原理。现在我们开始来实现一个简单的朴素贝叶斯分类的算法,这样我们能更好的理解它是怎么运作的。
2023-02-25 22:25:42
1964
4
翻译 论文研读 —— 9. DensePose From WiFi
计算机视觉和机器学习技术的进步已经导致RGB摄像头、LiDAR和雷达中2D和3D人体姿势估计的重大发展。然而,图像中的人体姿势估计受到遮挡和照明的不利影响,这在许多关注的场景中是常见的。另一方面,雷达和LiDAR技术需要专门的硬件,价格昂贵,耗能大。此外,在非公共区域放置这些传感器会引发严重的隐私问题。为了解决这些局限,最近的研究已经探索了使用WiFi天线(1D传感器)进行身体分割和关键点身体检测。本文进一步拓展了WiFi信号与计算机视觉中常用的深度学习体系结构的结合,以估计密集的人体姿势对应关系。
2023-02-12 23:34:39
3513
翻译 论文研读 —— 8. Through-Wall Human Pose Estimation Using Radio Signals
本文展示了通过墙壁和遮挡准确估计人体姿势的方法。我们利用WiFi频率中的无线信号穿过墙壁并反射到人体的事实。我们引入了一种深度神经网络方法,该方法解析这些射频信号以估计2D姿势。由于人类无法注释射频信号,我们使用最先进的视觉模型提供跨模态监督。具体来说,在训练过程中,系统使用同步的无线和视觉输入,从视觉流中提取姿势信息,并使用它来指导训练过程。一旦训练完成,网络仅使用无线信号进行姿势估计。我们表明,在可见场景测试时,基于无线的系统几乎与用于训练它的视觉基系统一样准确。
2023-02-06 00:42:15
1089
1
原创 机器学习知识总结 —— 19.朴素贝叶斯网络
文章目录贝叶斯概率简述朴素贝叶斯训练过程预测过程简单的说贝叶斯概率简述在我写过的关于统计学相关文章 《概率论基础 —— 2. 条件概率、全概率、贝叶斯概率公式》 提到过一个很重要的概率公式—— 贝叶斯公式。其基本形式如下:P(xi∣Y)=P(xi)P(Y∣xi)P(Y)P(x_i | Y) = \frac{P(x_i) P(Y | x_i)}{P(Y)} P(xi∣Y)=P(Y)P(xi)P(Y∣xi)这里的 P(Y)P(Y)P(Y) 表示事件 YYY 发生的全概率,P(xi)P(x_i
2023-01-23 15:31:56
982
原创 机器学习知识总结——18.实现一个简单的K-Means聚类
在上一章节里简要的介绍了无监督学习中聚类的知识点,看的太多理论概念,难免会有点莫名其妙,现在就让我们来实现一个简单的 K-Means 算法,从而从原理上彻底弄明白聚类是怎么工作的。
2023-01-21 09:54:55
569
原创 机器学习知识总结 —— 17.什么是聚类
文章目录什么是聚类聚类与SVM算法的区别是什么聚类算法的重要知识点常见聚类算法K-Means聚类层次聚类 (Hierarchical Clustering)DBSCAN聚类基于密度的HDBSCAN什么是聚类在前面的章节,介绍了机器学习中的第一个分类算法SVM,除此以外,如果你有关注过机器学习或者数据挖掘方面的知识,那么应该也听说过聚类。作为机器学习中的一种重要算法,聚类也是一种无监督学习方法,它的目的是将数据分成若干组,使得每组数据之间相似度尽量大,不同组之间相似度尽量小。聚类与SVM算法的区别是什
2023-01-20 09:50:53
1482
原创 机器学习知识总结 —— 16.如何实现一个简单的SVM算法
此外,如果需要对不平衡的数据进行分类,那么可能需要使用更高级的方法来调整损失函数。例如,对于少数类别,可以使用不同的权重来调整损失函数。如果需要对高维数据进行分类,那么可能需要使用核技巧来解决该问题。在这种情况下,可以使用高斯核函数代替线性核函数。如果需要对大规模的数据进行分类,那么可能需要使用分布式计算来解决该问题。在这种情况下,可以使用类似于Apache Spark或Hadoop之类的工具来处理数据。
2023-01-18 07:16:29
1302
原创 小波分析——5.使用小波对信号去噪以及重构
我们在前面的内容中已经介绍过,小波是什么,小波是如何对信号进行分解,以及小波对信号成分是如何分析的,今天在这篇文章,也是整个小波分析最后一个章节里,我们来谈谈小波最重要的应用,也就是如何使用小波函数对信号进行去噪以及去噪后如何重构去噪后的信号。
2023-01-13 00:06:02
2974
原创 信号采样基本概念 —— 3. 什么是信噪比SNR
信噪比(Signal-to-Noise Ratio,缩写为 SNR)是衡量信号与噪声强度比值的指标。它可以用来表示信号在噪声干扰下的传输质量。通常情况下,信噪比越大,信号质量就越好。信噪比可以应用于各种不同的领域,包括通信、信号处理、信息论等。在通信领域中,信噪比可以用来表示信号在通过通信链路时的质量。在信号处理领域中,信噪比可以用来表示信号在进行信号处理操作时的质量。在信息论领域中,信噪比可以用来表示信息在噪声干扰下的传输效率。信噪比的公式通常为:SNR = 信号强度 / 噪声强度。
2023-01-07 21:37:48
5266
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人