- 博客(7)
- 收藏
- 关注
原创 【文生视频-腾讯混元-HunyuanVideo】AutoDL配好环境开箱即用~
自从Sora问世,视频生成领域就火了起来。前不久腾讯AI团队刚刚开源了混元视频生成模型HunyuanVideo,本人第一时间就在AutoDL上面部署了代码,快来体验一下吧。
2024-12-07 17:44:48
2340
3
原创 3DVG综述论文【arXiv2024】Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions
文本引导的3D视觉定位(T-3DVG)旨在从复杂的3D场景中定位语义上与语言查询相对应的特定对象,在过去的几年里在3D研究界引起了越来越多的关注。与二维视觉接地相比,由于其更接近真实世界,以及数据采集和三维点云源处理的复杂性,该任务呈现出巨大的潜力和挑战。在这次调查中,我们试图提供一个全面的概述T-3DVG的进展,包括它的基本要素,最新的研究进展,以及未来的研究方向。
2024-06-18 11:06:43
559
原创 EDA【CVPR2023】论文与代码解读
EDA【CVPR2023】论文与代码解读然而,现有的方法要么提取连接所有词的句子级特征,要么更多地关注对象名称,这会丢失词级信息或忽略其他属性。
2024-06-17 22:43:23
815
原创 Mono3DRefer数据集介绍
为了遍布场景并降低帧间相似性,Mono3DRefer数据集选取了KITTI数据集中的2025帧图像进行组建数据集。和ScanRefer类似,每个物体有平均5个text注释。和ScanRefer类似,分unique和multiple。有Near、Medium和Far子集。有Easy、Moderate和Hard子集。
2024-06-17 14:34:28
321
原创 ReferIt3D数据集介绍
ReferIt3D数据集的一个显著特点是其标注过程中的控制实验。为了确保引用表达式的多样性和质量控制,在标注过程中设计了多种控制条件。例如,同一场景下的不同注释者会收到不同的指示,有的被要求生成常规的引用表达,而有的则被指示使用避免常见词汇的描述。此外,还有控制实验要求注释者最大化地使用不同的词汇表来描述相同的对象,或者限制使用某些特定属性如形状、功能或位置信息来描述对象。
2024-06-15 22:12:53
542
原创 ScanRefer数据集介绍
ScanRefer数据集的构建解决了一个特定的问题,即如何通过自然语言指令在RGB-D扫描数据中找到特定的三维物体。这个问题的提出为研究者提供了一个挑战性的平台,用于研究语言描述与空间场景之间的复杂关系。为了构建这一数据集,研究者基于ScanNet数据集,进行了大规模的人工标注和验证工作,确保了数据质量和标注的准确性。
2024-06-15 11:56:13
1315
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅