- 博客(8)
- 收藏
- 关注
原创 【步态识别】论文阅读 Parsing is All You Need for Accurate Gait Recognition in the Wild
因为二值轮廓或2D/3D关键点的信息熵过低,无法有效编码行走过程中人体的形状和动态。因此,有必要探索一种具有更高信息熵的表示方法,以用于野外步态识别。尽管这些方法在广泛使用的实验室步态识别数据集(如CASIA-B和OU-MVLP)上取得了成功,但在最近的野外数据集(如GREW和Gait3D)上表现不佳。这也是由于二值轮廓的信息熵过低,仅包含整个身体的全局轮廓,而缺乏细粒度身体部位的细节。因此,我们旨在通过部位级步态表示来建模行走过程中细粒度身体部位的形状和动态。
2025-03-18 11:41:40
713
1
原创 【分裂阵波束合成】分裂阵波束合成理论
能够提供阵增益和目标方位估计,是声呐系统用于测向的主要方法。不同应用实例是根据各自应用需求对相位差信息进行后置处理,提取满足声呐使用需求的特征信息。方法是 2 种高分辨率的分裂阵波束形成方法,其共同点是,不同点在于对左右波束形成的处理。
2025-03-18 10:25:50
639
原创 基阵理论基础——常见阵列与均匀线列阵(UniformLinearArray,ULA)
常见阵列与均匀线列阵(UniformLinearArray,ULA)
2025-02-26 22:03:20
1130
原创 【说话人日志】说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么
说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么
2025-02-25 09:47:37
773
原创 【说话人日志】《3D-Speaker-Toolkit: An Open-Source Toolkit forMultimodal Speaker》阿里通义多模态说话人开源项目3D-Speaker
该项目由阿里通义团队开源,提供解决“谁在何时说话纯音频说话人日志:由多个模块组成,包括重叠检测(可选)、语音活动检测、语音分段、说话人特征提取和说话人聚类。多模态说话人日志:融合音频和视频图像输入以生成更精确的结果。项目github链接视频介绍论文地址我们介绍了3D-Speaker-Toolkit,一个开源的多模态说话人验证和日志工具包,旨在满足学术研究者和工业从业者的需求。3D-Speaker-Toolkit巧妙地结合了音频、语义和视觉数据的优势,无缝融合这些模态以提供强大的说话人识别能力。
2025-02-23 13:34:47
1034
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人