自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Linux远程服务器下非root用户更改cuda版本

修改bash文件路径,vim ~/.bashrc,输入i进入insert模式,然后将之前的路径注释掉,输入新的路径。sh cuda_11.7.0_515.43.04_linux.run后等几分钟会出现以下界面。鼠标滚轴选定,只保留Toolkit,其他全部enter勾选掉,如下。路径更改完毕后输入:wq进行保存,激活一下,cuda版本就更换完毕。进入Options,后再进入Toolkit Options。后返回进入LIbrary,更改路径为cuda/mylib。清除所有勾选项,后进入路径。

2025-03-03 15:30:41 192

原创 论文阅读 - RePOSE: 3D Human Pose Estimation via Spatio-Temporal Depth Relational Consistency

2D 到 3D 提升方法的最新进展通常采用 Transformer 架构 ,该架构在捕获全局信息和建模顺序数据方面表现出了卓越的能力。这些方法通常涉及使用定制算法将检测到的 2D 姿势转换为 3D 空间。然而,这个过程本质上面临着多对一的映射挑战,其中多个不同的 3D 姿势可以对应于单个 2D 投影,特别是在遮挡场景下,如图 c 和 d 所示。在这种情况下,关键身体关节的遮挡会导致2D 姿态估计的准确性降低,从而在 3D 重建过程中产生模糊性。此外,在模型训练过程中。

2024-11-27 10:59:56 704 1

原创 论文阅读 - TEMPORAL-AWARE REFINEMENT FOR VIDEO-BASED HUMAN POSE AND SHAPE RECOVERY

上图是所提出的TAR概述图。静态全局和局部特征用作输入来生成时间感知的全局和局部表示,分别由GTE和LTE表示为f和m,最后,两种类型的特征都被馈送到 RRM,RRM 迭代更新输入序列中的中间帧估计 SMPL 参数。ht和ht-1表示ConvGRU在不同时间步的隐藏图,W,U是可学的权重。以前基于视频的方法通常设计一个网络来对由预训练主干提取的低分辨率全局特征序列之间的长期或局部时间关系进行建模,尽管基于视频的方法在提高帧内精度和帧间一致性方面取得了进展,但它们仍然难以实现基于图像的方法的高精度。

2024-11-26 14:38:55 621 1

原创 Lifting by Image - Leveraging Image Cues for Accurate 3D Human Pose Estimation 论文阅读笔记

作者认为目前3D HPE主要以“lifting”方法为主。这类方法分为两个阶段,首先使用现成的2D姿态估计器从图像中估计出2D姿态,然后使用估计的2D姿态回归出3D姿态。对比直接使用图片回归3D姿态来说,有以下的优点:2D 估计器在更多样化和更广泛的 2D 人体姿势数据集上进行训练,从而实现更强的视觉感知和泛化能力;另外,通过设置不同的摄像机视图,可以使用无限的 2D-3D 对来训练“lifting”。然而,从 2D 姿态估计 3D 姿态会引入深度模糊问题,一个 2D 姿态可以映射到多个 3D 姿态。

2024-10-29 16:28:18 623 1

原创 Relightable and Animatable Neural Avatar from Sparse-View Video代码复现

从上面链接中找到torch和torchvision,然后分别下载对应cuda和python环境的whl文件,同样也可以进行如下操作,将版本号换成自己的即可。根据上面链接,下载对应torch、cuda、python编译环境的pytorch3d,然后放到任意位置,后在该位置运行以下代码即可安装成功。从上面链接中下载easymocap,后放在任意位置。最后进入easymocap路径下。

2024-09-25 15:44:48 361

原创 3D人体姿态估计 & transformer

它能够平稳有效地传播关节的运动信息。我们发现,FPN(Feature Pyramid Network) 和 PVT(Pyramid Vision Transformer) 都采用分层和系统的金字塔结构,通过更好的信息传播和更好的任务结果来改进它们的前辈。该方法解决了传统基于变压器的方法的固有局限性,有效促进了注意力机制的综合利用,增强了模型的鲁棒性和稳定性。开发一种系统方法,用于设计和训练基于注意力的模型,用于三个级别的姿势估计:2D 关节注意力、3D 到 2D 投影注意力和 3D 姿势注意力。

2024-05-03 16:04:49 1847

原创 3D人体姿态估计 & transformer

具备外观和动作多样性的非受限人类视频可以从互联网大量获取,但获取精确的姿势标注需要额外的努力,且获取准确真实(GT)的三维人体姿态几乎是不可能的。我们通过掩码建模学习 PoseBERT 参数,最终得到一个通用的、独立于任务的模型,可以开箱即用,即无需对许多下游任务进行微调,例如去噪姿势序列、恢复缺失序列中的姿势,精炼 3D 中的初始姿势序列、运动完成或未来帧预测。为了更好地建模这些困难的关节,我们根据身体关节到根关节的距离将其分成几组,并将额外的与距离相关的位置嵌入分配给不同的组。

2024-04-30 09:43:21 1449 1

原创 论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

EQ:编码器,对输入的2D姿态信息进行处理,预测出T组根位置+关节旋转+脚接触标签,定义两个胯骨之间的关节点为根位置,因为这个关节点被遮挡的概率比较低,而且较易预测出来,由于预测的关节旋转是相对于根位置的旋转,因此需要预测出世界坐标系下根的位置,从而能够重建出世界坐标系下的运动,脚接触标签是为了处理脚步滑动伪影,设定地面位置为T帧图像中脚部位置距离图片底部最低的20%的均值,因为一般都假定人处于图像的中间;输入是多视角的2D关节,可以由2D关节检测器检测而来,也可以是真实的2D关节坐标。

2023-12-19 21:36:35 1887

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除