自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【说话人日志】快速跑通项目实战—3D-Speaker说话人分离

快速跑通项目实战—3D-Speaker说话人分离

2025-03-27 11:07:50 987

原创 【步态识别】论文阅读 Parsing is All You Need for Accurate Gait Recognition in the Wild

因为二值轮廓或2D/3D关键点的信息熵过低,无法有效编码行走过程中人体的形状和动态。因此,有必要探索一种具有更高信息熵的表示方法,以用于野外步态识别。尽管这些方法在广泛使用的实验室步态识别数据集(如CASIA-B和OU-MVLP)上取得了成功,但在最近的野外数据集(如GREW和Gait3D)上表现不佳。这也是由于二值轮廓的信息熵过低,仅包含整个身体的全局轮廓,而缺乏细粒度身体部位的细节。因此,我们旨在通过部位级步态表示来建模行走过程中细粒度身体部位的形状和动态。

2025-03-18 11:41:40 713 1

原创 【分裂阵波束合成】分裂阵波束合成理论

能够提供阵增益和目标方位估计,是声呐系统用于测向的主要方法。不同应用实例是根据各自应用需求对相位差信息进行后置处理,提取满足声呐使用需求的特征信息。方法是 2 种高分辨率的分裂阵波束形成方法,其共同点是,不同点在于对左右波束形成的处理。

2025-03-18 10:25:50 639

原创 基阵理论基础——常见阵列与均匀线列阵(UniformLinearArray,ULA)

常见阵列与均匀线列阵(UniformLinearArray,ULA)

2025-02-26 22:03:20 1130

原创 【说话人日志】说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么

说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么

2025-02-25 09:47:37 773

原创 【说话人日志】说话人日志(分割)综述与研究进展

说话人日志(分割)综述与研究进展

2025-02-24 09:38:28 1376

原创 【说话人日志】《3D-Speaker-Toolkit: An Open-Source Toolkit forMultimodal Speaker》阿里通义多模态说话人开源项目3D-Speaker

该项目由阿里通义团队开源,提供解决“谁在何时说话纯音频说话人日志:由多个模块组成,包括重叠检测(可选)、语音活动检测、语音分段、说话人特征提取和说话人聚类。多模态说话人日志:融合音频和视频图像输入以生成更精确的结果。项目github链接视频介绍论文地址我们介绍了3D-Speaker-Toolkit,一个开源的多模态说话人验证和日志工具包,旨在满足学术研究者和工业从业者的需求。3D-Speaker-Toolkit巧妙地结合了音频、语义和视觉数据的优势,无缝融合这些模态以提供强大的说话人识别能力。

2025-02-23 13:34:47 1034

原创 【说话人分离】多说话人分离基础知识—鸡尾酒会问题

本文介绍了多说话人分离的基础知识—鸡尾酒会效应

2025-02-20 16:03:12 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除