CVPR2025 论文精读 《从深层检索语义:手势合成的 RAG 解决方案》

👉️关注公众号Tensor实验室,,第一时间获取大厂算法校招、社招信息、最新论文工作(大模型、具身智能、CV、扩散模型、多模态、自动驾驶、医疗影像、AIGC、遥感等方向的论文解读)、最新AI发展趋势和学习资料等,赶快加入一起学习吧!


CVPR 2025 论文和开源项目合集请戳 CVPR2025-PapersWithCode


AI垂直方向交流群和论文投稿群已成立!

👨‍🔧👩‍🔧👨‍🔬👩‍🔬👨‍🚀👨‍🚒🕵️‍: 欢迎进群 | Welcome

目前已经开设的AI细分垂直方向交流群包括但不限于: 大模型、多模态、具身智能、CV、扩散模型、目标检测、图像分割、目标跟踪、医学影像、遥感、3DGS、Mamba、NeRF、Transformer、GAN、异常检测/缺陷检测、SLAM、人脸检测&识别、OCR、NAS、Re-ID、超分辨率、强化学习、3D重建、姿态估计、自动驾驶、活体检测、深度估计、去噪、显著性目标检测、车道线检测、模型剪枝&压缩、去雾、去雨、行为识别、视频理解、图像融合、图像检索等。

可以添加微信小助手微信:Tensor333Tensor555,请备注:研究方向+地区+学校/公司名称+昵称!如:大模型+北京+北航+小北;一定要根据格式申请,可以拉你进对应的交流群。

如果目前方向未定的的同学,可以先加入大群(大群和垂直方向群可以同时加入)。可以添加微信小助手微信:Tensor333或Tensor555,请备注:方向未定+地区+学校/公司名称+昵称!如:方向未定+北京+北航+小北

如果想进顶刊顶会论文投稿和交流群的同学。可以添加微信小助手微信:Tensor333或Tensor555,请备注:顶刊顶会名称+地区+学校/公司名称+昵称!如:CVPR+北京+北航+小北;


Authors: M. Hamza Mughal, Rishabh Dabral, Merel C.J. Scholman, Vera Demberg, Christian Theobalt

Paper: https://arxiv.org/abs/2412.06786

Code: https://github.com/m-hamza-mughal/RAG-Gesture

Home: https://vcai.mpi-inf.mpg.de/projects/RAG-Gesture/

目录

一、现存问题🌟

二、相关研究和难点📚

三、创新点(解决方法)🔥

四、实验结果分析📈

五、未来工作建议💡

六、总结🌳

简介:非语言交流通常包含语义丰富的手势,有助于传达话语的含义。对于现有的神经系统来说,生成此类语义共语手势一直是一大挑战,因为现有的神经系统可以生成有节奏的节拍手势,但难以生成语义上有意义的手势。因此,我们提出了 RAG-Gesture,这是一种基于扩散的手势生成方法,它利用检索增强生成 (RAG) 来生成外观自然且语义丰富的手势。我们的神经显性手势生成方法旨在生成基于可解释语言知识的语义手势。我们利用显性领域知识从共语手势数据库中检索示例动作来实现这一点。检索到示例动作后,我们会在推理时使用 DDIM 反转和检索引导,将这些语义示例手势注入到我们基于扩散的手势生成流程中,而无需任何训练。此外,我们提出了一种引导控制范式,允许用户调节每次检索插入对生成序列的影响程度。我们的对比评估证明了我们的方法与近期手势生成方法的有效性。建议读者观看补

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值