
paper
文章平均质量分 89
那年一路北
记录日常,感谢关注。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度揭秘:ULIP 与 ULIP-2 多模态三维预训练框架全解析
摘要:二维视觉与语言模型如CLIP、BLIP、DALL·E等在图像-文本对齐方面取得显著进展,但三维点云数据因采集与标注成本高,面临样本稀缺、类别有限等挑战。ULIP及其进阶版ULIP-2旨在解决三维多模态预训练的核心难题,即实现文本、图像与三维点云的统一对齐,以提升少样本、零样本环境下的泛化能力。本文基于李闯同学的学习总结,深入剖析ULIP与ULIP-2的动机、模型架构、训练细节、实验结果与未来应用,帮助读者掌握这一前沿方向。研究背景与动机部分指出三维点云数据的挑战与现有方法的局限性,ULIP框架则详细介原创 2025-05-09 13:48:19 · 913 阅读 · 0 评论 -
探索 CameraCtrl模型:视频生成中的精确摄像机控制技术
CameraCtrl 通过精确轨迹参数化、Plücker 嵌入、定制编码器以及 Adam 优化器,实现了对摄像机姿态的精确控制。在对比和消融实验中表现优异,验证了其技术先进性。CameraCtrl 为视频生成引入了全新的摄像机运动控制能力,通过一系列创新设计与优化,使得生成的视频在摄像机轨迹上达到了前所未有的精度,为视频生成带来更多惊喜与可能。原创 2025-04-24 17:23:22 · 1017 阅读 · 0 评论 -
深度学习前沿 | TransNeXt:仿生聚合注意力引领视觉感知新时代
传统的点积注意力在处理不同序列长度和非线性输入时,存在数值不稳定的问题。TransNeXt 提出的 LSCA,通过对余弦相似度进行长度缩放,有效提高了模型对多尺度特征的兼容性与稳定性。公式简述其中,$Q,K$ 分别表示查询和键,$d_k$ 为向量维度,长度缩放系数 $\alpha$ 保证不同尺度下的相似度计算稳定性。H32×W32×8C的特征图。原创 2025-04-24 16:48:33 · 1252 阅读 · 0 评论 -
TransNet:基于扩展三维卷积的实时镜头边界检测
介绍TransNet模型的设计与实现,该模型通过扩展三维卷积实现了在添加少量参数的情况下,获得长时间感受野的能力,并配合结构化的模块化设计,达到了高效、准确、实时的镜头边界检测效果。实验结果表明,TransNet在RAI数据集上超过了94%的平均F1分数,显著优于传统方法和同类网络。未来工作方向可包含:将语义分割、对象检测等视觉信息融入模型;探索更轻量化的时序网络,如时序Transformer;实现多模态融合,结合音频、字幕等信号。原创 2025-04-24 16:22:57 · 897 阅读 · 0 评论 -
单目深度估计 + 点云重建完整复现流程(超详细教程)
在3D重建领域,传统的多视角几何方法(如COLMAP)通常依赖于较大的视角变化和充足的图像数据。然而,当数据量较少,视角变化不大时,传统方法可能难以获得良好的重建结果。针对这种情况,我们可以采用。通过详细的环境配置、代码示例和参数调优,确保了完整复现过程,最终可得到高质量的3D模型。进行单目深度估计,并结合SAM的mask进行优化。使用Open3D将深度图转换为点云,并进行配准。当有多张深度图时,需要将它们配准到同一坐标系。的方式进行3D重建。原创 2025-03-06 22:11:02 · 382 阅读 · 0 评论