
文献阅读
文章平均质量分 89
沉默媛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Back to the Features:附录C Unconditional world model evaluations
这部分内容主要介绍了在 DINOv2 ViT-B/14 模型基础上,针对语义分割和单目深度估计这两种密集预测任务,分别构建线性预测头,并详细阐述了训练和评估的具体流程。原创 2025-08-04 10:55:26 · 155 阅读 · 0 评论 -
Back to the Features中,直观物理的评价指标是什么,计算方式是什么
共同目标:这些指标都是为了衡量模型在预测任务中的性能。无论是平均绝对误差还是困惑度,本质上都是对模型预测结果与真实情况之间差异的一种量化。它们都反映了模型对数据的学习和预测能力,从这个角度看,具有可比性基础。相对性能评估:在比较不同模型时,我们更关注的是模型之间的相对性能。例如,在相同的实验设置和数据集下,如果一个模型的平均绝对误差明显低于其他模型,或者其困惑度更低,我们可以认为该模型在预测任务中表现更好。即使指标的计算方式不同,但通过相对数值的比较,依然能够判断出哪个模型在整体性能上更优。原创 2025-08-03 17:16:05 · 477 阅读 · 0 评论 -
Back to the Features:附录B
为了便于复现我们的结果,我们报告了用于预训练视频世界模型的无标签视频数据集的关键统计信息。具体而言,表6比较了我们数据集与Cityscapes [58]和Something-Something V2 (SSv2) [59]的数据集大小、每秒帧数(FPS)和分辨率。此外,图4中的直方图总结了我们数据集中高度与宽度(宽高比)以及帧数与时长的分布情况。我们数据集中的视频内容多样,涵盖了从烹饪教程到户外场景等广泛的活动。。我们报告了用于预训练视频世界模型的数据集的视频数量、时长、每秒帧数(FPS)和分辨率。!原创 2025-08-03 17:13:54 · 380 阅读 · 0 评论 -
Back to the Features:附录A
本文介绍了视频预测模型的架构设计与实现细节。视频编码器部分采用DINOv2 ViT-B/14作为主要框架编码器,处理224×224输入图像生成768维的块标记表示。对比实验还测试了SigLIP和Stable Diffusion两种替代编码器。无条件预测器由交叉注意力Transformer模块堆叠而成,通过RoPE方法将时空位置信息(τ,i,j)编码到注意力机制中,时间范围0-5秒,空间位置归一化为0-1。在基于动作的预测设定中,模型通过添加动作模块实现条件预测,每个Transformer模块后接入一个动作处原创 2025-08-03 16:26:48 · 441 阅读 · 0 评论 -
Back to the Features中Action-conditioned fine-tuning,这种微调是怎么做的
摘要:本文提出了一种高效将动作信息融入预训练视频世界模型的方法,通过在各计算块后插入可训练的动作块(Action Block)实现动作条件预测。动作块采用残差结构设计,初始化为近似恒等映射,仅需小规模动作标注数据即可微调,同时支持冻结主干网络以避免破坏预训练知识。相比传统动作令牌混合方法,该方案解决了批处理复杂性和灾难性遗忘问题,显著提升了模型在小数据场景下的适应性。实验证明了该方法在保持预训练模型优势的同时,能有效实现动作条件视频预测,为机器人控制等应用提供了实用解决方案。原创 2025-08-03 15:55:56 · 333 阅读 · 0 评论 -
Back to the Features论文中时间帧的优化采样解释
论文确保模型训练时接触多样化的时间跨度,避免偏向短时预测,从而提升对任意未来时间点的泛化能力。这种方法类似于时间维度的数据增强。适合直接复制到 优快云 博客或 Markdown 编辑器中!强制模型学习不同时间跨度的动态,避免短时预测过拟合。,通过二分查找匹配视频中最近的真实帧时间戳。是独立均匀分布的,例如可能得到序列。,提升对任意未来时间点的预测能力。以上内容由文心人工智能生成。对每个视频,随机生成。(通过时间戳匹配)。原创 2025-08-03 12:06:18 · 644 阅读 · 0 评论 -
块三角掩码(Block-Triangular Masking)
确保模型在生成或预测时仅依赖过去信息。这种方法在视频、语音等时序任务中广泛应用,是自回归模型的核心组件之一。(即帧 ( t+1 ) 不能看到同一块内帧 ( t ) 之后的信息),可调整掩码为。其中 ( q_i ) 是查询,( k_j ) 是键,( d_k ) 是键的维度。是一种通过限制注意力机制的可视范围来强制实现。(但通常块内允许全局交互,仅块间严格因果。在视频或时序数据(如帧序列)处理中,即未来帧的键不能影响过去帧的查询。以上内容由文心人工智能生成。允许关注当前及之前块。原创 2025-08-03 15:40:02 · 637 阅读 · 0 评论 -
Back to the Features: DINO as a Foundation for Video World Models【精读】
DINO-world:基于潜在空间预测的通用视频世界模型 【研究背景】 世界模型作为AI重要发展方向,传统方法面临三大挑战:数据需求高(需标注动作)、像素建模难度大、评估体系不完善。 【核心创新】 提出新型架构: 在DINOv2冻结编码器的潜在空间训练 分离预训练与动作微调阶段 支持可变帧率/分辨率处理 训练优势: 使用6000万未筛选视频数据 避免像素级建模复杂度 复用DINOv2的语义理解能力 【关键成果】 性能表现: VSPW分割预测任务mIoU提升6.3% 超越现有模型的分割/深度预测能力 展现物理原创 2025-08-03 10:41:10 · 712 阅读 · 0 评论 -
Back to the Features: DINO as a Foundation for Video World Models论文中提到的RoPE编码是什么
RoPE(旋转位置编码)是一种通过旋转矩阵为序列数据注入位置信息的技术,能有效捕捉元素间的相对位置关系。其核心是利用旋转矩阵变换特征向量,保留相对位置信息并增强模型泛化能力。在图一视频模型中,RoPE用于将时空坐标注入块标记,辅助预测未来帧的时空特征。优势在于与自注意力机制无缝集成,计算效率高,适合处理时空数据。原创 2025-07-31 21:02:53 · 733 阅读 · 0 评论 -
【文献阅读】DEPTH PRO: SHARP MONOCULAR METRIC DEPTH IN LESS THAN A SECOND
Depth Pro:零样本高分辨率单目绝对深度估计模型 本文提出Depth Pro基础模型,实现了无需相机内参等元数据的零样本高分辨率单目绝对深度估计。该模型在标准GPU上仅需0.3秒即可生成1536×1536像素的深度图,具有三大创新突破:1)采用多尺度ViT架构捕获全局上下文并保留精细结构;2)设计新颖的训练策略,结合真实与合成数据集的优势;3)首创从单幅图像估计焦距的技术,显著优于现有方法。实验表明,Depth Pro在边界召回率指标上超越先前工作1-2个数量级,尤其擅长处理毛发、植被等复杂边缘。该技原创 2025-07-12 19:24:43 · 956 阅读 · 0 评论 -
【文献阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
深度Any模型:利用大规模未标记数据提升单目深度估计性能 本文提出了一种名为"深度Any"的创新方法,旨在构建一个强大的单目深度估计基础模型。该方法通过设计数据引擎自动收集和标注约6200万张未标记图像,显著扩展了数据覆盖范围。研究采用两种关键策略:1)利用数据增强工具创建更具挑战性的优化目标,迫使模型学习更强的视觉表示;2)引入辅助监督机制,使模型继承预训练编码器的丰富语义先验。实验表明,该模型在六个公共数据集和随机照片上展现出卓越的零样本泛化能力,并在NYUV2和Kitti数据集上实原创 2025-07-10 22:15:49 · 859 阅读 · 0 评论 -
【NIPS2024】Equivariant spatio-hemispherical networks for diffusion MRI deconvolution
每个体素在扩散磁共振成像(dMRI)图像中包含一个球面信号,对应于大脑中水扩散的方向和强度。本文通过开发对E(3) × SO(3)群等变的卷积网络层,推进了这类空间-球面数据的分析,并考虑了dMRI的物理对称性,包括空间的旋转、平移和反射以及体素级的旋转。此外,神经元纤维通常是抗对称的,我们利用这一特性构建了高效的空间半球图卷积,以加速高维dMRI数据的分析。在稀疏球面纤维反卷积的背景下,我们提出的等变网络层在性能和效率上都有显著提升,有助于更好地解析交叉神经元纤维和纤维束追踪。原创 2025-04-16 13:37:39 · 748 阅读 · 0 评论 -
计算和比较不同图像重建方法之间的视觉相似性,使用 LPIPS(Learned Perceptual Image Patch Similarity)度量来评估。
计算和比较不同图像重建方法之间的视觉相似性,使用 LPIPS(Learned Perceptual Image Patch Similarity)度量来评估。原创 2024-10-29 21:04:54 · 566 阅读 · 0 评论 -
UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-R
最近NeRF等相关隐式神经表示方法的成功为连续图像表示开辟了一条新的道路,像素值不再需要从存储的离散二维数组中查找,而是可以从连续空间域上的神经网络模型中推断。尽管最近的LIIF工作已经证明这些新方法在任意尺度的超分辨率任务上都能取得很好的性能,但由于对高频纹理的预测不准确,它们的升尺度图像经常会出现结构失真。其中,s为目标像素在HR域的值,vr为参考位置在LR域的特征向量,δ x为目标像素x与参考位置xr的归一化距离。在本节中,我们将讨论UltraSR的局限性以及我们的工作可以扩展的三个潜在的未来方向。原创 2024-10-29 20:39:26 · 1216 阅读 · 0 评论