自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 Mahony filter滤波:IMU数据融合最好的算法-论文&代码详细解读(Nonlinear Complementary Filters on the Special Orthogonal)

Sensor Fusion这篇论文题为**2006年Mahony发表了《基于特殊正交群上非线性互补滤波器》的论文(Nonlinear Complementary Filters on the Special Orthogonal Group)**,作者是R. Mahony, Tarek Hamel, Jean-Michel Pflimlin。论文主要介绍了在特殊正交群SO(3)上进行姿态估计的非线性互补滤波器设计与分析,并提供了一种新的姿态融合算法。在无人机、各类需要IMU的角速度和加速度计融合得出角度

2024-05-18 22:40:54 3159

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python - Chapter3(原创系列教程)(最关键一章)

在许多实际应用中,我们需要分析四元数表示的旋转在空间和时间上的变化。这就涉及到了扰动(perturbation)、导数(derivative)、积分(integral)等概念。本章我们将探讨如何在四元数的框架下定义和计算这些量,并给出一些常用的公式和性质。

2024-05-17 20:50:13 1326

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python - Chapter 2(原创系列教程)

在第一章中,我们详细介绍了四元数的定义、性质以及运算法则。现在,我们将进一步探讨四元数在三维空间中的几何意义,特别是它与旋转的关系。本章将揭示四元数的一些重要性质,如四元数乘积与旋转复合、四元数指数与旋转矩阵的关系等。同时,我们还会介绍四元数与其他旋转表示之间的转换,如欧拉角、轴角等。本章的内容对于深入理解四元数在三维旋转中的作用至关重要。只有建立了坚实的理论基础,我们才能在实际应用中灵活运用四元数,并解决旋转表示和运动合成中的各种问题。

2024-05-17 12:24:28 1244

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python(原创系列教程)

在机器人领域,准确估计和控制机器人的姿态(orientation)是一项关键而富有挑战性的任务。四元数(Quaternion)凭借其独特的数学性质,已成为描述三维旋转的首选工具之一。特别地,它在基于IMU(惯性测量单元)的姿态估计和滤波算法中扮演着至关重要的角色。本章将为读者奠定坚实的四元数理论基础,内容涵盖了四元数的定义、多种表示形式、运算法则、性质定理等。只有深入理解了这些基础知识,读者才能真正领会四元数在机器人学中的巧妙应用,并具备在实际项目中灵活运用的能力。学完这个教程,你可以轻松理解任何涉及到

2024-05-17 12:10:01 1014

原创 基于连续隐式 SDF 的任意形状机器人轨迹优化的论文解析

这篇论文《Continuous Implicit SDF BasedAny-shape Robot Trajectory Optimization》引起了我极大的兴趣,任意形状可以进行高精度规划(实际规避障碍物的效果非常好,但是轨迹合理性,比如可以走更宽敞的地方避免在窄区域闪转腾挪,包括最优性应该也还有优化空间,当然这不是本论文的重点),下面我对这篇论文的理论和不好理解的地方做下个人理解的阐述。

2024-05-15 14:09:59 1659 1

原创 让相机自己决定拍哪儿!——NeRF 三维重建的主动探索之路

我们想要某个函数 (\Phi(x)) 来表示“距离表面有多远”。在传统 3D 里,这类似“有符号距离场 (SDF)”。Φx≈∫nearfard⋅σFrddd\Phi(x)\approx\, ddΦx≈∫nearfar​d⋅σF​rd))dd然后对 (\Phi) 做梯度,就能获得g⃗x∇Φx∂Φ∂x∂Φ∂y∂Φ∂z\vec{g}(x)=\left(\right).g​。

2025-02-06 23:29:44 999

原创 VITA-1.5接近GPT4o水平的多模态模型:理解和跑通这套多模态实时交互系统

VITA-1.5 是一个多模态大型语言模型(Multimodal Large Language Model, MLLM),其特点在于可以同时处理视觉(图像、视频)、文本以及语音信息。在最初的版本 VITA-1.0 中,团队主要解决了“视觉+语音+文本”的多模态交互问题,但是语音输出依旧依赖外部的 TTS(Text-To-Speech)模块,导致推理过程中会有额外的延迟和一些可能的兼容性问题。大幅减少互动延迟。

2025-01-08 22:01:08 2243 1

原创 解析AudioPaLM:复现高级语音对话技术指南

AudioPaLM基于仅解码器的Transformer架构(类似于GPT系列),通过将文本和音频标记整合到一个联合词汇表中,实现多模态建模。音频标记化:将原始音频信号转换为离散音频标记序列。词汇表扩展:将文本和音频的词汇表合并,形成一个统一的多模态词汇表。模型初始化:使用预训练的PaLM-2模型权重初始化Transformer解码器,并随机初始化新增的音频嵌入。多任务训练:在ASR、AST、TTS和S2ST等任务上进行混合训练,优化模型在多模态任务上的表现。音频解码。

2025-01-07 23:36:19 1083

原创 【基于语义地图的机器人路径覆盖】Radiant Field-Informed Coverage Planning (RFICP)高斯扩散场轨迹规划算法详解

今天博主介绍自己paper中的算法RFICP 😃 :针对语义地图覆盖轨迹的速度规划算法,该算法已开源,欢迎关注Github,代码地址如下:SHIFTPlanner-Robotics SHIFT-Planner:[https://github.com/fanzexuan/SHIFTPlanner-Robotics](https://github.com/fanzexuan/SHIFTPlanner-Robotics) 可以点个小星星🌟支持下,今天就讲解下这部分基于语义地图覆盖轨迹规划的内容。

2024-12-31 14:34:00 1121

原创 超快速的路径优化IKD-SWOpt:SHIFT Planner 中增量 KD 树滑动窗口优化算法详解

今天本博主王婆卖瓜自卖自夸😄,介绍自己paper中的算法,本算法已经持续开源中(部分关键内容),之前很多读者朋友一直说要详细讲讲路径优化算法,我这篇paper中的一个叫IKD-SWOpt的模块创新性的使用IKDtree改进的Astar给出比较好的初始路径,并通过滑动窗口检测需要优化的轨迹段进行无精度损失的轨迹优化算法,其内存开销及优化速度都打到了SOTA水平,在内存及计算资源极其有限的环境下也可以运行。

2024-12-28 22:44:17 2360 1

原创 重讲Diffusion Policy(从公式和代码角度): 个人最看好的机器人操控算法

之前发布过一篇讲解Diffusion Policy 的blog文章,近期看到越来越多基于这个工作的衍生论文都表现出不错的效果(当然都还不稳定),不过做一些固定的任务可以实现目前为止所有方法中相对比较好的泛化性能。所以今天再对照代码介绍下关键的实现环节,没有特别复杂的数学且论文给出了基于colab的2D实现的demo,所以大家感兴趣都可以跑下代码试验下。首先跟我一起快速的回顾下这篇论文,也可以去翻我之前的blog。

2024-11-03 16:17:50 6266 3

原创 Transformer进行路径预测的挑战与预训练模型的应用的惨痛教训及思考

该文章封面是德国朋友发给我的他家的景色,哈哈。周末我打算用Transformer模型在路径预测中进行路径预测,因为Transformer可以处理不同时间步的输入,例如位置、速度和环境特征等,但是效果十分不理想,记录下。

2024-10-27 21:30:16 999

原创 机器人路径搜索新思路论文:Diffusion-based Generation, Optimization, and Planning in 3D Scenes

本文介绍了SceneDiffuser这篇论文,这是一个用于3D场景理解的条件生成模型。SceneDiffuser提供了一个统一的模型来解决场景条件的生成、优化和规划。与先前的工作相比,SceneDiffuser本质上具有场景感知、基于物理和目标导向的特点。通过迭代采样策略,SceneDiffuser通过基于扩散的去噪过程以完全可微的方式共同公式化场景感知生成、基于物理的优化和目标导向的规划。这种设计缓解了不同模块之间的差异和先前场景条件生成模型的后验崩溃。

2024-10-27 00:02:19 1160

原创 效果不错的论文介绍:Im2Flow2Act:-跨领域机器人操控技术

本文提出了一种可扩展的学习框架——,使机器人能够从多种数据源中学习操控技能。的核心思想是使用物体流作为操控接口,弥合不同体现形式(如人类与机器人)以及训练环境(如现实世界与模拟环境)之间的领域差距。流生成网络和流条件策略。流生成网络通过人类演示视频生成物体流,该流基于初始场景图像并结合任务描述进行生成。而流条件策略则利用模拟的机器人训练数据,将生成的物体流映射为机器人的动作,从而实现对目标物体的操控。通过使用物体流作为输入,这种策略可以以最小化的模拟到真实差距直接应用于现实环境。

2024-10-16 22:35:55 1144

原创 Moshi:类似chatgpt advanced voice mode的端到端语音问答技术

Moshi是法国一个人工智能实验室的开源模型,实现了首个开源的端到端语音问答模型,可以有类似chatgpt 4o的语音模式,下面是对这个技术的概述,但是实测远没达到chatgpt4o的能力,可能是有所限制,因为官网的展示视频能力很强。Moshi 是一种全新的语音-文本基础模型,旨在解决当前语音对话系统的局限。现有的对话系统依赖多个独立的组件(例如语音活动检测、语音识别、文本生成、文本到语音转换),这种多组件框架往往存在高延迟、非语言信息丢失和对话建模不足的问题。Moshi 通过设计全双工的语音对语音生成模型

2024-10-07 22:50:09 1758 1

原创 今天不做技术分享系列:宋美龄女士的白宫演说

在中国近现代历史的舞台上,宋美龄,这位风姿绰约、谈吐优雅的女性,凭借她独特的魅力和卓越的外交才能,成为了一个令人瞩目的国际人物。作为蒋介石的妻子,她不仅是政坛的“第一夫人”,更是连接东西方政治与文化的桥梁。宋美龄出生于1897年,出身于上海显赫的宋家。她年幼时便随家人前往美国接受教育,毕业于马萨诸塞州的威尔斯利学院,这使她不仅具备流利的英语,还深谙西方文化。凭借她在中美两国之间的身份与背景,宋美龄迅速成为中华民国政府中一位独具影响力的女性人物。

2024-09-28 14:37:59 798 1

原创 深入浅出3D感知中的优化与基于学习的技术 (第三章) 原创教程

RAFT - 基于循环全对场变换的光流估计光流是估计视频帧之间每个像素运动的任务。这是一个长期存在的视觉问题,至今仍未完全解决。最好的系统仍然受到快速移动物体、遮挡、运动模糊和无纹理表面等困难的限制。传统上,光流被视为一个在一对图像之间的稠密位移场上的手工优化问题[21,51,13]。通常,优化目标定义了一个折衷,在鼓励视觉相似区域对齐的数据项和对运动合理性施加先验的正则化项之间取得平衡。

2024-07-02 22:26:52 1151

原创 深入浅出3D感知中的优化与基于学习的技术 (第二章) 原创教程

总结了下基于学习的感知技术,会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节,并支持自己最近的项目开发和论文。,这一章先讲一些数学知识,这是看懂后面要讲解的论文和学术界前沿技术的关键。我们将导数视为向量空间之间的线性映射。更准确地说,给定在开集 U⊆XU\subseteq XU⊆X 和 V⊆YV\subseteq YV⊆Y 上定义的函数 F:U→VF:U\rightarrow VF:U→V 以及 a∈Ua\in Ua∈U,在 aaa 处的导数是一个线性映射 DF(a):X→YDF(a

2024-07-01 23:15:10 1358

原创 深入浅出3D感知中的优化与基于学习的技术1(原创系列)

近期几乎看了所有有关NERF技术论文,本身我研究的领域不在深度学习技术方向,是传统的机器人控制和感知。所以总结了下这部分基于学习的感知技术,会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节,并支持自己最近的项目开发和论文。

2024-07-01 00:16:58 1091

原创 基于NEON优化的扩展卡尔曼滤波(EKF)教程

本教程详细介绍了扩展卡尔曼滤波(EKF)的原理,并展示了如何使用ARM的NEON指令集优化EKF的实现。通过使用NEON进行矩阵乘法优化,我们可以显著提高EKF的运行效率。此外,还介绍了在实际应用中需要注意的性能优化和实现细节。希望通过本教程,您能深入了解EKF的工作原理,并掌握如何利用NEON指令集进行高效的矩阵运算优化。如果有任何问题或需要进一步的帮助,请随时联系。

2024-06-28 11:30:23 1133 3

原创 FC-Planner: 一个基于骨架引导的快速覆盖复杂3D场景的规划框架方案实现与难点讲解

FC-Planner的实现涉及到多个领域的技术,包括计算几何、组合优化、凸优化等。其中的难点主要集中在两个方面:一是如何在保证覆盖完整性的同时最小化视点数量和路径长度;二是如何高效地求解由此产生的各种优化问题。针对第一个难点,提出了骨架引导的空间分解和视点生成策略,可以避免大量的冗余计算。针对第二个难点,巧妙地利用了问题的结构特点,将其分解为多个易于并行求解的子问题,同时采用了各种启发式算法和凸优化技术,大大提高了求解效率。这些思想和技术不仅限于无人机覆盖规划,在其他路径规划问题中也有广泛的应用前景。

2024-06-23 16:16:54 1424 2

原创 OpenCL 教程:从基础到实践

OpenCL(Open Computing Language)是一个开放标准的并行编程框架,用于在异构系统上编写高性能计算程序。它允许开发者利用各种计算设备(如 CPU、GPU、FPGA 等)来加速计算密集型任务。通过本教程,我们已经深入探讨了 OpenCL 的核心概念、编程模型、内存模型和执行模型。我们还通过实际的例子展示了如何实现和优化 OpenCL 程序。记住,优化是一个迭代的过程。始终使用性能分析工具来测量你的优化效果,并根据具体的硬件和问题特性来调整你的策略。

2024-06-23 14:25:49 10542 2

原创 基于自适应融合和偏置消除的鲁棒松耦合视觉惯性里程计

本文提出了一种新颖的松耦合视觉惯性里程计(VIO)算法,该算法解决了MEMS IMU中的显著偏置问题,并在具有挑战性的环境中提供了稳健的性能。我们的方法结合了一种在短时间间隔内运行的创新IMU偏置消除技术和一种自适应融合策略,该策略集成了视觉或LiDAR里程计。我们使用因子图优化框架制定了我们的方法,并通过闭环检测进一步增强了长期一致性。大量实验表明,我们的方法在各种具有挑战性的场景下都优于现有的最先进方法,特别是在快速运动或视觉退化的情况下,与现有方法相比,平均轨迹误差减少了25%。

2024-06-21 21:41:26 1083

原创 哥伦比亚大学突破性的方法- Diffusion Policy:利用Action Diffusion进行视觉运动策略学习

本论文工作提出了一种名为Diffusion Policy的新型视觉运动策略学习方法,它利用了扩散模型强大的生成建模能力。通过引入时间衰减控制、视觉条件和时间序列扩散transformer等关键技术贡献,Diffusion Policy在各种复杂的机器人操作任务上实现了最佳性能,展示了其在机器人领域的广阔应用前景。

2024-06-21 00:01:23 3059 1

原创 基于 Clang和LLVM 的 C++ 代码静态分析工具开发教程

C++ 中经常使用typedef和using来定义类型别名。# 检查类型是否是互斥锁在这里,如果类型是一个typedef,我们使用方法获取其原始类型,然后再进行检查。静态代码分析是一种强大的技术,可以帮助开发者在编译之前发现代码中的潜在问题。通过分析代码的结构和语义,静态分析工具可以发现诸如空指针解引用、资源泄漏、竞态条件等问题。本教程将介绍如何使用 LLVM 库开发一个 C++ 静态分析工具。LLVM 是一个强大的编译器基础设施,广泛用于开发编译器、优化器、静态分析器等工具。

2024-06-20 19:02:13 2256

原创 常用损失函数详解:广泛使用的优化约束方法

今天介绍下损失函数,先介绍下我常用的方法SmoothedL1,它是一个平滑的L1 penalty函数,用于处理约束violation。L1​x0x​ifx≤0ifx0​其中x表示约束violation。然而,这个函数在x0处不可导,会给基于梯度的优化算法带来数值问题。为了解决这个问题,SmoothedL1使用了一个分段的、光滑的函数来近似L1 penalty。

2024-06-19 22:08:28 2004

原创 史上最详细的轨迹优化教程-机器人避障及轨迹平滑实现(干货满满)

轨迹不与任何障碍物相交(避免碰撞)轨迹尽可能平滑,没有急转弯(保持平滑)轨迹尽可能短,减少不必要的绕路(最小化长度)min⁡xLxλsSxλcCxxmin​Lxλs​Sxλc​Cxx\mathbf{x}x是轨迹的参数化表示,例如一系列的路径点坐标LxLx表示轨迹的长度SxSx表示轨迹的平滑度,可以用轨迹的曲率或加速度等量度CxCx表示轨迹与障碍物之间的碰撞代价λs\lambda_sλs​和λc。

2024-06-16 17:16:42 7502 2

原创 斯坦福ALOHA机器人团队最新论文-HumanPlus: 从人类学习的人形机器人动作模仿和自主操作

斯坦福ALOHA机器人团队最新论文-HumanPlus,继续推进了机器人技术的前沿进展,我进行了部分翻译和解读:HumanPlus:从人类中学习的人形机器人影子(Shadowing)和模仿(Imitation)摘要构建与人类具有相似形态的机器人的一个关键论点是,我们可以利用大量的人类数据进行训练。

2024-06-15 23:00:34 5777

原创 CMU最新论文:机器人智慧流畅的躲避障碍物论文详细讲解

CMU华人博士生Tairan He最新论文:Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion代码开源:Code: https://github.com/LeCAR-Lab/ABS我会详细解读论文的内容,让我们开始吧。腿式机器人在杂乱环境中导航必须兼顾敏捷性以提高执行任务的效率,同时要确保安全性以避免与障碍物或人发生碰撞。

2024-06-14 00:03:48 3503 1

原创 Google&DeepMind联合发布医学领域大语言模型论文技术讲解

Med-PaLM 2的医疗领域大语言模型,在多个医学问答基准测试中取得了接近或超过现有最佳结果的表现,包括在MedQA数据集上达到86.5%的准确率,比之前的Med-PaLM提高了19%以上。提出了一种新的提示策略Ensemble Refinement(ER),通过让模型先生成多个推理路径,再对路径进行整合来提高推理能力。这个策略与之前的Chain-of-Thought和Self-Consistency方法有相似之处。针对消费者健康问题的长答案进行了详细的人工评估。

2024-06-12 23:00:49 2200 1

原创 英伟达最新论文介绍:RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

这篇论文个人认为很重要,目前机器人领域的chatgpt时刻还没到来,很大原因就是没有统一的系统物理执行机构和数据集。今天来介绍下这篇论文。

2024-06-12 22:36:58 1560

原创 从零实现ChatGPT:第四章在无标签数据上预训练

当语言模型生成文本时,它们一次输出一个token。默认情况下,下一个token是通过将模型输出转换为概率分数并从词汇表中选择对应于最高概率分数的token来生成的,这被称为贪婪解码。使用概率采样和温度缩放,我们可以影响生成文本的多样性和连贯性。训练集和验证集损失可用于衡量语言模型在训练期间生成的文本质量。预训练语言模型涉及改变其权重以最小化训练损失。语言模型的训练循环本身是深度学习中的标准程序,使用传统的交叉熵损失和AdamW优化器。

2024-06-11 22:40:53 1518

原创 PyTorch tutorials:快速学会使用PyTorch

PyTorch是由Facebook人工智能研究实验室(FAIR)开发的开源深度学习框架。它建立在Torch库之上,Torch是一个使用Lua编程语言的机器学习库。Torch主要用于研究和学术领域,而PyTorch则旨在为研究人员和实践者提供一个Python友好的接口。PyTorch是为灵活性和速度而设计的。它提供了一个名为Tensor的主要数据结构,用于存储和操作多维数组。Tensor类似于NumPy的ndarray,但可以利用GPU来加速计算。

2024-06-10 22:11:40 1243

原创 史上最详细四叉树地图不同技术应用和代码详解

四叉树地图是一种强大的空间索引结构,在机器人导航、计算机图形学、地理信息系统等领域有着广泛的应用。本文介绍了四叉树地图的基本概念、主要变体及其研究进展,重点讨论了X-Quad树在机器人领域的应用。通过示例代码,我们展示了如何使用X-Quad树表示环境地图、进行路径规划、碰撞检测和占据栅格地图构建。X-Quad树的自适应性、紧凑存储和快速查询等特点,使其成为机器人导航中的理想选择。

2024-06-10 19:59:00 2233

原创 从零实现ChatGPT:第三章实现大型语言模型(2)

层归一化通过确保每一层的输出具有一致的均值和方差来稳定训练。快捷连接是跳过一个或多个层的连接,通过将一个层的输出直接馈送到更深层来帮助缓解深度神经网络(如LLMs)训练中的梯度消失问题。Transformer块是GPT-2模型的核心结构组件,结合了带掩码的多头注意力模块和使用GELU激活函数的全连接前馈网络。GPT-2模型是具有许多重复transformer块的LLMs,参数数量从数亿到数十亿不等。

2024-06-10 15:38:38 1464 3

原创 从零实现ChatGPT:第三章实现大型语言模型(1)

本章中实现最终GPT架构所需的各个概念的顺序。

2024-06-10 15:24:01 1270

原创 基于栅格占据概率和距离场的机器人覆盖轨迹模拟

辐射场模型实现。

2024-06-09 21:12:15 1217 1

原创 从零实现ChatGPT:第二章使用注意力Dropout减少过拟合

在本小节中,我们重点关注了神经网络中的因果注意力机制的概念和实现。我们将在此基础上实现多头注意力模块。

2024-06-09 13:03:35 1855

原创 从零实现ChatGPT:第一章构建大规模语言模型的数据准备

LLM需要将文本数据转换为数值向量,称为嵌入,因为它们无法处理原始文本。嵌入将离散数据(如单词或图像)转换为连续向量空间,使其与神经网络运算兼容。作为第一步,原始文本被分解为标记,可以是单词或字符。然后,标记被转换为称为标记ID的整数表示。可以添加特殊标记,如_unk_>和_endoftext_>,以增强模型的理解并处理各种上下文,例如未知单词或标记不相关文本之间的边界。GPT和GPT-2等LLM使用的字节对编码(BPE)标记化器可以通过将未知单词分解为子词单元或单个字符来有效处理未知单词。

2024-06-08 23:40:52 1877 1

原创 覆盖路径规划经典算法 The Boustrophedon Cellular Decomposition 论文及代码详解

2000年一篇论文 Coverage of Known Spaces: The Boustrophedon Cellular Decomposition 横空出世,解决了很多计算机和机器人领域的覆盖路径问题,今天我来详细解读这个算法。

2024-06-07 22:50:17 6011

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除