自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 Intent3D

在现实世界中,人们寻找 3D 物体的行为往往基于特定意图,例如“我想要一个可以支撑我背部的东西”(即寻找枕头)。传统 3D 视觉定位(3D-VG)主要依赖。在意图推理、候选框匹配和级联优化方面展现了领先性能,优于现有。(如“沙发上的枕头”)。,为 3D 目标检测提供新的方向。

2025-03-08 18:22:03 1245

原创 Fast3R

多视图 3D 重建是计算机视觉的核心挑战。传统基于多视图几何(MVG)的方法依赖图像对,存在误差累积和难以并行化的问题。DUSt3R 虽直接从 RGB 图像预测 3D 结构,但局限于两个图像输入,处理多图像时计算量大且受成对瓶颈限制提出了快速三维重建(Fast3R),一种新的多视图推广到DUSt3R,通过并行处理许多视图来实现高效和可扩展的三维重建。Fast3R基于Transformer的架构允许在单个前向传递中重建N个图像,无需重复对齐。

2025-03-07 11:11:12 698

原创 计算机视觉-OpenCV图像处理

练习任务:写一个简单的OpenCV脚本,提取两个图像的ORB特征并进行匹配。滤波用于平滑图像、去除噪声。边缘检测用于提取图像中的轮廓,

2025-02-17 18:23:37 370

原创 计算机视觉-尺度不变区域

准备一堆模版上去卷积,看看哪个能产生最大响应,但是随着信号变化发生了信号衰减。变换高斯二阶导的核(选择不同的σ去卷积),响应最大的点(σ=4.8左右),每三个尺度进行比较,只和上下尺度进行比较,找出极值(绘画出很多圆)?信号的总面积:随着方差的变大,会越来越小(权值求和不是1)?高斯二阶导有两个参数:方差和窗宽(给定方差可以算出窗宽)当图像与二阶导高斯滤波核能匹配的时候,能产生一个极大值。下图中的信号应该选择σ=8的高斯模版。零平面的圆的方程,圆的半径就是尺度。看具体的一个像素点在图像中的变化。

2025-02-15 17:06:05 470

原创 计算机视觉+Numpy和OpenCV入门

练习任务:利用Numpy生成一个随机矩阵,计算其特征值和特征向量。练习任务:写一个Python脚本,读取一个图像并保存灰度图像。读取一个图像并保存灰度图像。

2025-02-15 13:15:47 612

原创 计算机视觉-局部特征

用泰勒展开,建立E(u,v)和(u,v)的直接关系。E(u,v)是移动都得变化差异,(u,v)是移动量。通过分析(u,v)对E(u,v)的影响,就能判断出是不是角点。w(x,y)是一个权值,每个点的贡献不一样(高斯)都等于0,就是,uv怎么变E(u,v)都不变,E[u,v]:移动前和移动后两个窗口的差异值。有一个等于0,就和其中一个u或v有关系,两个。我们希望找到的点具有的特征有什么特性?②显著性,左边和右边显著特征相似可匹配。给出一个u,v,就可以画出一个椭圆。E(u,v)最大的点就是角点。

2025-02-14 14:10:25 895

原创 计算机视觉-拟合

针对圆形,先找到梯度方向,针对一个点选取不同的r(一个r就会有两个点,对应两个圆心)画出直线,会有两条,一个向心一个离心,3.剩下的点给这个直线投票,就是看剩下的点到直线的距离之和,设置一个小门限,如果这条直线有90个点进行投票就记下这条直线。u是点到直线的距离,σ(尺度参数)来控制点到直线距离的影响(距离多少点没有贡献了),太远的点就是噪声点,就不考虑了。随便选取三对点,算出abcdef,用其他的点进行投票(满足一致性),重复上述步骤,3.剩下的点给这个直线投票,就是看剩下的点到直线的距离之和。

2025-02-08 12:27:02 833

原创 计算机视觉-边缘检测

该点f(x,y)在x方向上的导数为f(x+1,y)*1 + f(x,y)*(-1),也就是f(x,y)*g(x,y)在卷积区域内求和,卷积区域为1*2,-1与1对应的是g(x,y)。改进:利用卷积的交换律和结合律,先算高斯核的导数再算与原图像的卷积(计算梯度大小,剔除掉梯度小的点,选择合适的边缘点。用x方向的卷积模版计算一次再用y方向的卷积模版计算一次,求和。eg:-1、1与原图卷积就是出现左下方的图,(右减左)对x求导,是y方向左右差异比较大的。高斯平滑核:用来做平滑的,不会有负数,权值和等于1。

2025-02-04 18:12:37 1681

原创 计算机视觉-卷积

1.滤除高频(把周围突兀的点给滤掉)2.一个大高斯核的卷积效果可以由两个小高斯卷积核连续操作得到(勾股定理计算得到)eg:小的高斯核是σ=2和σ=3,则大的高斯核σ=3.高斯核可以分解分解性质有什么作用?计算复杂度降低卷积操作的n*n次操作保留,不再需要m个相加的操作,只需要m个分解和求和的操作,所以不再是m*m而是m。

2025-01-24 21:42:20 2681 1

原创 计算机视觉之三维重建-单视几何

二维与三维之间的关系影消点与直线的关系影消线与面的关系。

2025-01-23 14:31:47 1065

原创 计算机视觉之三维重建-摄像机标定

因为摄像机内外参数矩阵描述了三维世界到二维像素的映射关系;摄像机标定:求解摄像机内、外参数矩阵 K [R T];P:世界坐标系下 p:像素坐标系下。

2025-01-03 17:32:45 605

原创 奇异值分解SVD

SVD推广到任意大小矩阵。

2025-01-03 17:16:27 176

原创 3D Gaussian Splatting for Real-Time Radiance Field Rendering-简洁版

传统的3D场景表示方法,如网格和点云,适合GPU加速的光栅化操作,但缺乏灵活性。而基于神经辐射场(NeRF)的表示方式,尽管质量高,但需要高成本的训练和渲染时间。相较于当前最佳质量的Mip-NeRF360,训练时间从48小时缩短到仅6分钟(快速配置)或51分钟(高质量配置),渲染速度达每秒135帧。提出一种快速的基于GPU的平铺排序算法,用于实现高效的各向异性splats投影和前向后向传播。3D高斯允许在优化过程中高效表示连续的体积辐射场,同时减少了对空白空间的计算浪费。

2024-12-17 15:29:34 1391 1

原创 Neural Radiance Fields-简洁版

NeRF将场景表示为一个连续的5D函数,输入包括空间坐标 (x,y,z)(x, y, z) 和观察方向 (θ,ϕ)(\theta, \phi)。MLP 在 NeRF 中的关键优势是能够拟合复杂的 3D 函数,将空间坐标和方向映射到颜色和密度。NeRF主要解决的是视图合成问题,即从多个已知视角的图像中生成一个新视角的图像。:利用已知的图像数据和相机姿态,通过梯度下降优化网络,使其生成的新视角图像与真实图像尽可能相似。:通过传统的体积渲染技术,将上述5D函数沿相机光线积分,生成2D图像。数字文物的3D重建。

2024-12-17 14:05:25 280

原创 LRM-典型 Transformer 在视觉领域的应用,单个图像生成3D图像

一、Abstract第一个大型重建模型(LRM),它可以在5秒内从单个输入图像预测物体的3D模型。LRM采用了高度可扩展的,具有5亿个可学习参数,可以直接从输入图像中预测神经辐射场(NeRF)。算法具体步骤通过跨注意力将图像和相机特征投影到三平面表示,其包含三个轴对齐特征平面、和,每个平面维度LRM 包含一个图像编码器,它将输入图像编码为逐块特征标记。

2024-12-15 13:40:37 1760

原创 ROS学习笔记4-Topic话题与Message消息

在创建软件包的时候就可以确定消息类型,依赖项中的std_msgs是标准消息包,它包含了很多消息包类型。首先要确定发布的话题名称和要发布的消息类型,在ros.index可以查找所需消息类型。两个节点属于两个不同的包,如果要建立起联系,这就需要一个共同的话题Topic。消息的发布者Publisher,消息的订阅者是Subsciber。调用消息发送对象的publish()函数将消息包发送到话题当中。在消息发送前生成发送的消息包并进行发送数据的赋值。在代码文件中include消息类型对应的头文件。

2024-12-04 11:59:40 322

原创 SCube: Instant Large-Scale Scene Reconstructionusing VoxSplats

我们提出了SCube,这是一种从稀疏的设定图像集中重建大规模3D场景(几何、外观和语义)的新方法。我们的方法。

2024-12-04 11:53:35 1320

原创 Transformer

主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder,RNN及其衍生网络的缺点就是慢,问题在于前后隐藏状态的依赖性,无法实现并行。针对机器翻译问题,本文提出了一种被称为”Transformer”的网络结构,基于注意力机制,完全摒弃了递归结构,挖掘输入和输出之间的关系,这样做最大的好处是能够并行计算了。之前RNN等方法的不足:从左到右一步步计算,因此难以并行计算,过早的历史信息可能被丢弃,时序信息一步一步向后传递,训练时间慢。

2024-11-28 21:28:46 906

原创 Edify 3D: Scalable High-Quality 3D Asset Generation

一、AbstractNVIDIA 开发的用于高质量 3D 资产生成的 Edify 3D 模型。该模型通过多视图扩散模型合成物体的 RGB 外观和表面法线图像,再用重建模型预测 3D 形状的几何、纹理和基于物理的渲染(PBR)材质,Edify 3D能够在 2 分钟内生成具有详细几何结构、清晰形状拓扑、高分辨率纹理和材质的 高质量3D 资产。1、能在短短两分钟内,生成包含完整 UV 贴图、4K 纹理和 PBR 材质的高品质 3D 模型。

2024-11-27 19:03:51 2046

原创 ROS学习笔记3-使用RVIZ观测传感器数据

File-Save Config As 将当前的rviz地图另存为文件。添加激光雷达显示条目,机器人模型等。加载gazebo,搭建虚拟环境。

2024-11-24 14:38:12 271

原创 论文笔记3-XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

Nvidia2023提出的一种新的生成模型,可生成具有任意属性的高分辨率稀疏3D体素网格,以前馈方式生成数百万体素,最细有效分辨率高达1024^3,而无需耗时的 test-time 优化,使用一种分层体素潜扩散模型,使用建立在高效VDB数据结构上的自定义框架,以从粗到细的方式生成逐步更高的分辨率网格。XCube在100 m×100 m规模的大型户外场景中的有效性,体素大小小至10 cm。提出了名为 XCube的大规模 3D 生成模型,用于生成带有任意属性的高分辨率稀疏 3D 体素层次结构相关工作。

2024-11-22 18:57:51 1262 1

原创 计算机视觉之三维重建-摄像机几何

1、针孔摄像机1.1 小孔成像原理当将胶片直接放置在物体前方时,3D物体上的同一点会在胶片的多个位置产生成像;(模糊成像)因此,在物体和胶片之间放置一个带有针孔的隔板时,假设针孔大小只允许穿过一条光线,那么3D物体上的同一点只能有一条光线穿过小孔并在胶片上成像;

2024-11-20 14:45:27 585

原创 视觉SLAM第二讲-ch2

通过g++ helloSLAM.cpp编译指令把helloSLAM.cpp文本文件编译成一个可执行程序,当前目录多出一个a.out文件,它具有执行权限(终端里颜色不同)输入./a.out即可运行此程序。在C++工程中,只有带有main函数的文件才会生成可执行程序。这个库提供了一个printHello函数,但是没有main函数,意味着这个库没有可执行文件,cmake ..(cmake..对上一层文件夹,也就是代码所在文件夹进行编译)原因:未在删除前一次操作的中间文件后,进行build的程序工作。

2024-11-17 13:50:40 541

原创 ORB-SLAM2学习、代码复现

full BA完成后,我们需要将更新后的关键帧和关键点子集(full BA后的)与未更新的关键帧和点合并在一起,这些关键点和点将在优化运行时插入,通过生成树将更新的关键帧的校正传播到未更新的关键帧(即从未优化的pose转换为优化的pose), 未更新的点根据参考关键帧的校正进行变换。绿点的深度小于baseline的40倍,而蓝点的距离更远。完全BA是局部BA的特定情况,将优化的范围扩大到地图中的所有关键帧和点(原始关键帧除外)其中对地图中的所有关键帧和点进行了优化,但固定为消除量规自由度的原始关键帧除外。

2024-11-14 15:53:12 1027

原创 SLAM、三维重建领域国内外知名课题组实验室

一、慕尼黑工业大学的The Computer Vision Group研究方向:三维重建,光流估计,机器人视觉,视觉SLAM等Daniel Cremers教授,主要研究:多视图重建、视觉SLAM、自动驾驶系统个人主页:谷歌学术Haoang Li教授,主要研究: 3D 计算机视觉,SLAM、点云处理和理解、语义 3D 场景重建代表性研究:视觉SLAM主页github代码二、 苏黎世Robotics and Perception Group研究方向:无人机环境感知与导航,VISLAM,事件相机。

2024-11-05 19:12:00 1255

原创 论文笔记2-Large Spatial Model:End-to-end Unposed Images to Semantic 3D

这项工作介绍了一种名为大空间模型(LSM)的新方法,它能够直接。

2024-11-03 20:40:45 1139 1

原创 三维重建相关知识笔记-持续记录ing

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视图的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。

2024-11-03 15:13:16 1012

原创 ROS学习笔记2-节点

catkin_create_pkg PS:软件包需要整个下载,虽然可能只会用到其中的几个节点(功能),需要节点之间相互配合达到要求。

2024-11-02 15:51:37 552

原创 ROS学习笔记1-简单记录

step5:把catkin_ws工作空间里的环境参数加载到终端程序里,使用source指令载入工作空间的环境设置(在主目录下运行)下图为在github上面下载的wpr_simulation软件包。scripts:放置脚本文件和python程序。回到catkin_ws目录下运行catkin_make进行编译。launch:可一次运行多个节点。src:C++源文件。git clone 网址。

2024-11-02 14:13:16 431

原创 ROS和Anaconda共存时的Python版本冲突问题

安装 anaconda 后,开启终端默认会激活 anaconda 的 base 环境 (base) myt@WP:~/桌面$,默认的 python 版本就会是 anaconda 相应的 python 版本。,然后再roslaunch等相关ros代码运行, 下次想使用 anaconda 的时候,再执行 conda activate 进入。在catkin_make前需要。

2024-11-01 16:04:19 479

原创 论文笔记1-DUSt3R: Geometric 3D Vision Made Easy

采取了相反的立场并引入了 DUSt3R,用于任意图像集合的密集和无约束立体 3D 重建,无需有关相机校准或视点姿势的先验信息即可运行。在提供两个以上图像的情况下,进一步提出了一种简单而有效的全局对齐策略,该策略将所有成对点图在一个公共参考系中表示。网络架构基于标准的 Transformer 编码器和解码器,能够利用强大的预训练模型。公式直接提供了场景的 3D 模型以及深度信息。总之,DUSt3R 使许多几何 3D 视觉任务变得简单。图1。

2024-10-28 13:44:50 1705 1

原创 研0第4次学习记录-conda指令-pycharm

如果需要一个能够使用不同版本Python的软件包,则无需切换到其他环境管理器,因为conda也是环境管理器。conda create -n 创建下的路径 python=x.x(在Anaconda安装目录下。可能需要先输入conda activate进入base基环境,再输入以下命令进入特定的虚拟环境。conda create --prefix 创建下的路径 python=3.10.6。conda activate 路径(进入到路径所在环境)conda env remove -p 要删除环境的路径。

2024-10-19 12:19:06 284

原创 研0第3次学习记录-python(持续更新ing)

1、 在 Python 中,变量就是一个名字。变量就是一个名字,一个标签,通过这个变量,你就能找到对应的数据。一、 不管什么语言开始学都是hello world 大学生还是要change world!Python 的变量无需声明,只需要一次赋值,该变量就能够被成功创建。变量名只能包含字母、数字和下划线,但不能以数字打头,比如abcdf。单引号、双引号、\(转义字符)、\n(换行)python3还支持中文作为变量名。使用三引号字符串来引用多行文本。小甲鱼,Python从入门到实践。

2024-10-16 19:16:07 255

原创 研0第2次学习记录-C++(持续更新ing)

C++程序从main()开始执行,main1()则是一个普通的函数,运行不了(后面学到解决方案再回来修改)自己理解:想运行项目中哪一个源文件也可以将其余源文件中的main改正main1、main2...(02注释.cpp文件中是main,所以运行结果是hello world不是a=10)如下图。第6行代码含义:输出hello world 先掌握(如下)变量:给一段指定的内存空间起名,方便操作这段内存(方便管理内存空间)多行注释:/*描述信息*/单行注释://描述信息。

2024-10-10 20:45:57 314

原创 研0第1次学习记录-关于机器人领域相关顶会顶刊如何检索

EI Compendex数据库侧重提供应用科学和工程领域的文摘索引信息,涉及核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程以及这些领域的子学科。控制和机器人技术的广泛领域是涵盖的主要领域,以及与理论和应用力学、优化、通信、信息论、机器学习、计算和信号处理的联系。它涵盖了与控制论生物(半机械人)和仿生系统(CBS)相关的广泛领域,主要包括机器人技术、生物医学工程和神经工程。

2024-10-09 15:36:07 1518 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除