- 博客(10)
- 收藏
- 关注
原创 CVPR2025 论文精读 《从深层检索语义:手势合成的 RAG 解决方案》
这篇论文试图解决现有神经网络系统在生成语义丰富的共言语手势(co-speech gestures)时面临的挑战。共言语手势是指与说话同步发生的身体和手势动作,它们能够传达与言语相辅相成的语义信息。尽管现有的神经方法能够生成节奏性的节拍手势(beat gestures),但在生成具有明确语义的共言语手势方面存在困难,因为这些语义手势在数据集中出现的频率相对较低,且与言语内容的语义关联更为复杂。
2025-08-23 16:38:58
788
原创 CVPR2025 论文精读 《Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis》
这篇论文试图解决现有神经网络系统在生成语义丰富的共言语手势(co-speech gestures)时面临的挑战。共言语手势是指与说话同步发生的身体和手势动作,它们能够传达与言语相辅相成的语义信息。尽管现有的神经方法能够生成节奏性的节拍手势(beat gestures),但在生成具有明确语义的共言语手势方面存在困难,因为这些语义手势在数据集中出现的频率相对较低,且与言语内容的语义关联更为复杂。
2025-08-23 16:34:54
812
原创 CVPR2025 论文精读 《让老电影再次伟大:老电影修复的退化感知状态空间模型》
这篇论文试图解决老电影修复中的特定挑战。与现代原生数字视频不同,老电影的修复需要处理模拟源特有的复杂退化问题。现有的专门方法在与通用视频修复技术相比时仍存在不足。因此,论文提出了一个新的基线来重新审视老电影修复中的挑战,旨在适应性地解决老电影中所有类型的退化问题,包括复杂的混合退化和结构缺陷。本文提出了一种新的老电影修复方法,旨在解决老电影特有的复杂退化问题。
2025-08-17 20:19:30
730
原创 CVPR2025 论文精读 《Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restor》
这篇论文试图解决老电影修复中的特定挑战。与现代原生数字视频不同,老电影的修复需要处理模拟源特有的复杂退化问题。现有的专门方法在与通用视频修复技术相比时仍存在不足。因此,论文提出了一个新的基线来重新审视老电影修复中的挑战,旨在适应性地解决老电影中所有类型的退化问题,包括复杂的混合退化和结构缺陷。本文提出了一种新的老电影修复方法,旨在解决老电影特有的复杂退化问题。
2025-08-16 23:16:41
774
原创 CVPR2025 论文精读 《降低 FLOP:迈向高效的人体素描网络》
这篇论文试图解决**细粒度基于草图的图像检索(Fine-Grained Sketch-Based Image Retrieval, FG-SBIR)**任务中模型效率低下的问题。具体来说,它关注如何将现有的为照片设计的高效轻量级模型适配到草图数据上,以实现高效的推理,同时保持较高的检索准确率。通过这两个阶段,论文成功地将一个大型的FG-SBIR模型转换为一个高效的小型模型,同时保持了较高的检索性能。跨模态知识蒸馏:将大型模型的知识转移到小型模型中,显著减少了FLOPs和模型参数。
2025-08-16 22:43:43
669
原创 CVPR2025 论文精读《Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch》
这篇论文试图解决**细粒度基于草图的图像检索(Fine-Grained Sketch-Based Image Retrieval, FG-SBIR)**任务中模型效率低下的问题。具体来说,它关注如何将现有的为照片设计的高效轻量级模型适配到草图数据上,以实现高效的推理,同时保持较高的检索准确率。通过这两个阶段,论文成功地将一个大型的FG-SBIR模型转换为一个高效的小型模型,同时保持了较高的检索性能。跨模态知识蒸馏:将大型模型的知识转移到小型模型中,显著减少了FLOPs和模型参数。
2025-08-16 22:40:57
769
原创 CVPR2025 论文精读 《T-CIL:利用对抗扰动进行温度缩放,用于类增量学习中的校准》
这篇论文试图解决在类别增量学习(Class-Incremental Learning, CIL)场景下模型置信度校准(confidence calibration)的问题。模型置信度与实际准确率不匹配:现代深度神经网络在预测时往往会表现出过度自信,即模型的置信度水平高于其实际准确率。这种不匹配使得模型的预测在决策制定中不可靠,尤其在自动驾驶和医学诊断等对可靠性要求极高的实际应用中可能导致严重后果。类别增量学习中的校准难题:在类别增量学习中,模型需要连续适应新类别,同时保留对之前学习类别的性能。
2025-08-16 21:40:55
1050
原创 CVPR2025 论文精读 《T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-》
这篇论文试图解决在类别增量学习(Class-Incremental Learning, CIL)场景下模型置信度校准(confidence calibration)的问题。模型置信度与实际准确率不匹配:现代深度神经网络在预测时往往会表现出过度自信,即模型的置信度水平高于其实际准确率。这种不匹配使得模型的预测在决策制定中不可靠,尤其在自动驾驶和医学诊断等对可靠性要求极高的实际应用中可能导致严重后果。类别增量学习中的校准难题:在类别增量学习中,模型需要连续适应新类别,同时保留对之前学习类别的性能。
2025-08-16 21:38:59
909
原创 CVPR2025 论文精读 利用 SAM2 实现视觉对象跟踪的干扰感知记忆
这篇论文试图解决视觉目标跟踪(Visual Object Tracking)中由于干扰物(distractors)导致的跟踪失败问题。具体来说,论文指出,尽管基于记忆(memory-based)的跟踪器已经在多个基准测试中取得了优异的性能,但在面对干扰物时,现代跟踪器仍然会遇到困难。干扰物是指那些难以与跟踪目标区分的图像区域,包括与目标相似的外部干扰物(如附近的其他物体)以及内部干扰物(如目标自身某些部分的相似区域)。当目标离开并重新进入视野时,外部干扰物尤其具有挑战性。
2025-08-16 21:20:58
894
原创 CVPR2025 论文精读 《A Distractor-Aware Memory for Visual Object Tracking with SAM2》
这篇论文试图解决视觉目标跟踪(Visual Object Tracking)中由于干扰物(distractors)导致的跟踪失败问题。具体来说,论文指出,尽管基于记忆(memory-based)的跟踪器已经在多个基准测试中取得了优异的性能,但在面对干扰物时,现代跟踪器仍然会遇到困难。干扰物是指那些难以与跟踪目标区分的图像区域,包括与目标相似的外部干扰物(如附近的其他物体)以及内部干扰物(如目标自身某些部分的相似区域)。当目标离开并重新进入视野时,外部干扰物尤其具有挑战性。
2025-08-15 22:13:53
750
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅