- 博客(1)
- 收藏
- 关注
原创 TR-DETR Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
根据自然语言的查询得到视频时刻。视频中的精彩部分。它是指在处理包含多种模态(如文本、图像、音频等)信息的任务中,将不同模态的数据在语义层面或特征空间层面进行匹配和校准的过程。前人的方法在模态交互之前并没有明确地对齐不同模态的语义信息,会导致联合特征的区分度不足。
2024-12-03 21:10:29
1031
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人