- 博客(2)
- 收藏
- 关注
原创 CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Al
手语识别(SLR)是一种弱监督任务,它将手语视频注释为文本注释。近年来的研究表明,由于缺乏大规模可用的符号数据集而导致的训练不足成为单反识别的主要瓶颈。因此,大多数单反作品采用了预训练的视觉模块,并开发了两种主流解决方案。多流架构扩展了多线索视觉特征,产生了当前的SOTA性能,但需要复杂的设计,并可能引入潜在的噪声。另外,先进的单线索单反框架使用明确的视觉和文本模态之间的跨模态对齐,简单有效,可能与多线索框架竞争。
2023-06-13 15:39:13
668
1
原创 TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation
手语翻译(SLT)旨在将手语视频序列翻译成基于文本的自然语言句子。
2023-05-25 16:27:11
649
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人