一点人工一点智能-优快云博客

原创两万字梳理 | 四足机器人的结构、控制及运动控制

本文系统回顾了四足机器人在结构设计、步态规划、传统控制方法、智能控制策略以及自主导航等核心技术领域的最新成就，特别关注各领域内的智能化发展趋势和技术革新动向。通过深入分析，本文不仅为四足机器人的未来发展提供了坚实的理论依据和前沿的技术导向，还为相关领域的研究人员提供了重要的参考价值。

2025-01-06 21:16:20 3882 2

原创 MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移

MoManipVLA的核心创新在于利用预训练VLA模型生成高泛化能力的末端执行器路径点，并通过双层次轨迹优化框架（Bi-Level Optimization）联合规划基座与机械臂的运动轨迹，确保物理可行性（如可达性、平滑性、碰撞避免）。

2025-04-02 10:37:17 636

原创基于Real-Sim-Real循环框架的机器人策略迁移方法

本文提出的Real-Sim-Real（RSR）循环框架通过引入可微分仿真技术，构建了一个闭环的系统性解决方案。其核心创新点在于将仿真参数优化与策略训练过程解耦，形成两个相互促进的反馈环路（图1）。

2025-03-26 12:23:03 967

原创仿真世界的作弊代码：MuJoCo软接触模型+ iLQR=现实机器人完美步态

本文提出了一种折中方案：利用MuJoCo物理引擎的高效仿真能力，结合迭代线性二次调节器（iLQR）算法，构建一种简单但高效的全身模型预测控制框架。该方法的核心优势在于标准化工具链（MuJoCo + iLQR）的采用，显著降低了模型预测控制的实现门槛。

2025-03-24 22:07:22 1028

原创让机器人学会“读心术“：FABG如何实现情感零延迟交互？

论文标题《FABG：End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction》明确了研究的核心目标——通过端到端模仿学习实现具有情感表达的具身人机交互。标题中的“Facial Affective Behavior Generation”（FABG）表明系统专注于生成自然的面部情感行为，这一设计直接针对传统人机交互中情感表达的机械化和不连贯问题。

2025-03-23 13:15:02 1144

原创基于HWC-Loco框架的鲁棒人形机器人运动控制方法

该论文提出了一种分层全身控制框架HWC-Loco，旨在解决人形机器人在复杂环境中的鲁棒运动控制问题。摘要部分明确指出，现有基于强化学习的方法虽在仿真环境中表现优异，但面临仿真与现实（Sim2Real）的动力学差异，且传统鲁棒优化方法常导致策略过于保守。HWC-Loco通过分层策略设计，动态协调目标追踪与安全恢复的平衡，并通过人类行为模仿提升运动自然性。作者指出，经典模型驱动方法依赖精确动力学建模，而数据驱动方法（如强化学习）虽具有泛化潜力，但受限于仿真环境与实际部署的动力学差异。

2025-03-21 09:11:34 1013

原创 HOVER：人形机器人的多功能神经网络全身控制器

论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER，旨在解决人形机器人全身控制中不同任务模式（如导航、操作、桌面操控等）的兼容性问题。现有方法通常为每个控制模式单独训练策略，导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术，将多个控制模式整合到一个统一策略中，实现了跨模式的技能共享与无缝切换。

2025-03-18 11:42:42 717

原创基于视觉的仿人机器人灵巧操作：从模拟到现实的强化学习

本文通过系统化解决环境建模、奖励设计、策略学习与感知迁移四大挑战，构建了一个可扩展的Sim-to-Real框架，首次实现了仿人机器人多指手视觉灵巧操作的策略迁移。

2025-03-17 20:45:51 958

原创 ChatVLA：基于视觉-语言-动作模型的统一多模态理解与机器人控制

ChatVLA框架，其核心创新在于分阶段对齐训练和混合专家架构（MoE）。前者通过先掌握控制任务再逐步引入多模态数据的策略保留对齐能力，后者通过共享注意力层与独立MLP层的设计减少任务干扰。

2025-03-04 16:05:02 779

原创 AnyDexGrasp: 通用灵巧抓取方法的创新与应用

通过个性化的训练和优化，AnyDexGrasp 能够根据不同机械手的特点调整其策略，从而在多变的任务环境中保持高效的抓取能力。接着，针对每一种机械手，通过现实世界的试错训练出独特的抓取决策模型，将这些表示转化为最终的抓取姿势。每一个抓取决策子模型都是通过神经网络学习得到的，它接收一个接触中心抓取表示作为输入，并输出一个介于0到1之间的分数，指示相应的抓取候选是否可能成功。例如，在实验中，研究人员发现即便是在仅有几百次抓取尝试的情况下，模型也能显著改善抓取效果，显示出其卓越的学习效率和适应性。

2025-03-03 22:27:50 806

原创 Harmon：从语言描述中生成人形机器人的全身动作

这篇论文介绍了一种名为“HARMON”的方法，用于从自然语言描述中生成人形机器人的全身运动。该方法利用了人类运动数据集中的先验知识来初始化机器人动作，并利用视觉语言模型（Vision Language Models，VLM）的能力编辑和优化这些动作。通过模拟和真实世界实验验证，该方法能够产生自然、富有表现力且符合文本描述的人形机器人动作。

2025-02-27 09:58:58 1041

原创 Dream to Drive：基于解析世界模型的自动驾驶车辆控制

本文提出了一种基于可微分仿真器的自动驾驶车辆控制方法，首次将可微分仿真应用于世界模型（World Model）的训练。通过引入解析世界模型（Analytic World Models, AWMs），作者设计了三种新任务——相对里程计预测、最优状态规划和逆最优状态估计，旨在解决传统基于策略的模型（如APG）在规划能力与可解释性上的不足。

2025-02-23 17:48:10 999

原创 VR-Robo：视觉机器人导航和运动的Real-Sim-Real框架

该论文的主要创新点在于提出了VR-Robo系统，实现了机器人在仿真环境与真实世界之间的快速转换。本文介绍了一种名为VR-Robo的框架，该框架能够为视觉导航和机器人运动学习提供真实感强、物理交互性强的数字孪生仿真环境。该方法利用多视图图像进行基于3DGS的场景重建，并将这些环境整合到支持自我中心视觉感知和网格基物理交互的模拟器中。

2025-02-17 10:46:09 1272

原创 MapFusion：一种新的多模态BEV特征融合方法

MapFusion：一种新的多模态BEV特征融合方法该论文的主要贡献在于提出了一个新的多模态BEV特征融合方法MapFusion，该方法通过引入CIT和DDF两个核心模块来实现跨模态交互和模态集成。本文介绍了一种名为MapFusion的新方法，用于多模态地图构建任务中的特征融合。该方法采用鸟瞰视角（Bird's-Eye View，BEV）特征作为输入，并通过引入交叉模态交互和双动态融合模块来解决不同传感器之间的语义不匹配问题。

2025-02-15 13:21:03 953

原创 DrivingGPT：使用多模态自回归Transformers统一驾驶世界建模和规划

这篇论文介绍了一种新的方法，名为DrivingGPT，旨在将驾驶世界建模（driving world models）和规划统一为一个序列建模问题。传统的驾驶世界模型主要依赖于视频扩散模型，缺乏灵活性以整合其他模态数据，如动作。相比之下，自回归变换器已经在处理多模态数据方面表现出色。

2025-01-11 10:27:19 914

原创 NaVILA：用于足式机器人导航的VLA模型

本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统，用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型（VLM）来处理视频输入，并将其与低级运动控制器相结合，以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。

2025-01-08 18:01:22 1015

原创《机器学习特征提取》

这是一本面向专业人士和研究生的实用指南，适用于那些正开始从事信息提取职业生涯的人。它以易于理解的方式解释了空间特征提取，并包括了关于如何收集空间特征的高度值、如何在地图上下文中开发3D模型等真实案例研究。

2024-06-04 15:05:45 1262

原创 NV-LIO：一种基于法向量的激光雷达-惯性系统（LIO）

NV-LIO利用从激光雷达扫描中提取的法向量进行云配准、退化检测和闭环检测，以确保在狭窄的室内环境中具有鲁棒的SLAM性能。所提出的方法通过公开数据集和我们的数据集进行了评估，涵盖了各种类型的建筑。

2024-05-28 12:51:37 1097

原创【荐闻】空中目标检测综述

总结了空中目标检测的发展现状和面临的挑战，提出了未来的研究方向，包括针对空中图像特性的特定数据增强方法、更高效的尺度特征融合、从多模态数据中学习、鸟瞰视角感知、视觉推理和可信赖的检测模型等。

2024-05-27 18:59:54 830

原创利用显著地面特征进行配送机器人定位的鲁棒方法

为了在不平坦的地面条件下获得更一致的SGF，我们采用了利用机器人运动的MC-IPM方法。SGF因子被应用于一个传递机器人，在校园环境中表现良好，并解决了反向循环的问题。它还验证了在白天和黑夜中光照和外观变化的情况下的强大性能。

2024-05-27 15:04:40 1237

原创用于高速导航的生成式规划与快速碰撞检查

本文提出了一种新颖的规划方法，使用归一化流（NF）来编码专家风格的运动基元，同时提出了一种加速的碰撞检测框架，可以在运行模型之前从先验分布中拒绝样本，从而快速采样无碰撞轨迹。实验结果表明，该方法在随机障碍环境中与模型预测路径积分控制相当，并在死胡同环境中提高了退出率。

2024-05-24 10:41:54 961

原创【荐闻】动态NeRF（Dynamic NeRF）综述

传统三维重建技术逐渐倾向于应用研究，而NeRF作为新颖的隐式三维重建领域，以其高分辨率的合成能力和对少量图像的适应性脱颖而出。动态NeRF相比静态NeRF能表达更丰富的信息，有更广泛的应用前景，因此，未来NeRF研究将更多关注动态NeRF，其在NeRF领域的重要性将日益增加。

2024-05-24 10:20:51 1142

原创基于事件相机的IMU辅助立体视觉里程计方法

该方法在现有的ESVO框架基础上，增加了三个模块：1)一种高效的事件像素采样策略；· 在相机位姿跟踪子问题中，利用IMU预积分结果作为运动先验，以提高位姿估计的准确性。· 在公开数据集上进行实验验证，结果表明该方法相比原始ESVO框架，在映射和位姿跟踪的准确性上有明显提升，同时计算效率也更高，更适合现代高分辨率事件相机。· 提出了一种自适应累积极(AA)方法，用于高效地确定与瞬时边缘相关联的像素位置。· 通过结合时间序列立体匹配和静态立体匹配的结果，改进了映射子问题。

2024-05-24 09:24:12 438

原创 AHPPEBot：基于表型和姿态估计的自主番茄采摘机器人

在本文中，我们设计了一个名为AHPPEBot的先进机器人，专门用于自动采摘番茄。为了确保机器人采摘的自主性和精确性，我们整合了两个关键技术：基于对象检测的快速表型学方法和用于番茄托架的姿态估计技术。这些整合提高了机器人识别番茄托架、决策和规划采摘路径的能力。

2024-05-22 13:09:01 1939

转载基于YOLOv8的无人机图像目标检测算法

在无人机(UAV)目标检测任务中，存在因检测目标尺度小、检测图像背景复杂等原因导致的漏检、误检问题。针对上述问题，提出改进YOLOv8s的无人机图像目标检测算法。首先，针对无人机拍摄目标普遍为小目标的应用场景，减少算法骨干网络(Backbone)层数，增大待检测特征图尺寸，使得网络模型更专注于微小目标；其次，针对数据集普遍存在一定数量低质量示例影响训练效果的问题，引入Wise-IoU损失函数，增强数据集训练效果；

2024-05-21 15:21:38 2763 3

原创基于深度强化学习的无人车自适应速度规划

本文对无人车辆的速度规划部分进行了一些改进。首先，将车辆速度与车辆与障碍物之间的角度耦合，并将这种耦合关系整合到奖励函数中。其次，使用DDQN算法替换无人车的局部路径规划模块；最后，在Gazebo仿真环境中完成了不同环境下的车辆速度规划测试。

2024-05-21 15:02:53 1334

原创【荐闻】MAD-ICP：一种基于激光雷达里程计（LO）的新型方法

本文提出了MAD-ICP，这是一种基于激光雷达里程计（LO）的新型方法。MAD-ICP利用了一种高效且通用的kd-tree数据结构，并结合估计的姿态不确定性动态维护一个稳健的环境模型。

2024-05-19 18:14:58 864

原创 GPS-IMU传感器融合用于可靠的自动驾驶车辆位置估计

在自动驾驶车辆导航、特别是在具有挑战性的环境中，将全球定位系统（GPS）和惯性测量单元（IMU）集成已成为实现可靠和精确位置跟踪的基石。虽然GPS提供了室外广泛的覆盖范围和高精度定位，但在室内或城市峡谷等信号受阻的地方，其性能会下降。相反，IMU独立于外部信号提供宝贵的运动数据，在无GPS信号的区域中不可或缺。然而，IMU的实用性受到随时间漂移的影响，这会导致从加速度数据推导出的速度和位置估计累积误差。为了减轻每种传感器类型的限制，GPS和IMU数据的融合成为一种关键策略。

2024-05-17 12:54:57 960

原创综述：基于深度学习的物体姿态估计

本章首先介绍了主流的基于深度学习的对象姿态估计数据集，包括实例级、类别级和未见对象姿态估计方法。然后，综述了相关的评估指标。最后，详细介绍了基于对应、模板、投票和回归的方法。

2024-05-16 13:37:20 1201

原创《Python深度学习，第3版》

深度学习领域在过去几年中发展迅速，如今涵盖了广泛的应用领域。这使得在没有扎实基础的情况下，要理解并应用深度学习变得具有挑战性。本书将引导您从神经网络的基础知识到当今使用的最先进的大型语言模型。

2024-05-14 15:58:03 1227 1

原创基于ChatGPT 和 OpenAI 模型的现代生成式 AI

生成式 AI 模型和 AI 语言模型因其无与伦比的能力而变得越来越流行。本书将带你深入了解 LLM 的内部工作原理，并指导你创建自己的语言模型。本书将从生成式 AI 领域的介绍开始，帮助你理解如何训练这些模型以生成新数据。

2024-05-14 14:23:14 1139

原创基于网络的无人海洋船舶控制

本书全面分析了网络控制系统的稳定性、稳定化和故障检测，重点关注无人海洋船舶领域。它研究了网络控制在航向控制、故障检测滤波器和控制器设计、动态定位以及合作目标跟踪等领域的挑战。

2024-05-13 20:07:29 425

原创计算机视觉：三维重建技术

本书探讨了用于通过图像确定实体物体的几何属性的理论和计算技术。它涵盖了基本概念，并提供了更高级研究所需的数学背景。本书分为清晰简明的章节，涵盖了广泛的主题，包括图像形成、相机模型、特征检测和三维重建。

2024-05-10 09:54:09 608 2

原创深度学习网络：设计、开发和部署

该教材为学生和工业从业者介绍了深度学习网络的设计、开发和部署的多个方面。它引入了一个深度学习工具集，将深度学习概念与之相结合，以增强理解。它还提供了编程的设计和技术方面，以及一种实际的方法来理解编程和技术在各种应用中的关系。它为读者提供了一个教程，学习广泛的概念建模和编程工具，以实现深度学习应用。

2024-05-08 20:12:58 1164

原创基于Detectron2的计算机视觉实践

您将了解Detectron2架构的理论和可视化，并学习Detectron2中每个模块的工作原理。随着学习的深入，您将通过使用Detectron2在两个实际项目中开展实践，涵盖了目标检测和实例分割任务的数据准备、模型训练、微调和部署。即使您是计算机视觉领域的专家，并且对Detectron2的特性感兴趣，或者您想学习一些尖端的深度学习设计模式，本书也会对您有所帮助。通过阅读本深度学习书籍，您将获得扎实的理论知识和实用的动手能力，帮助您使用Detectron2解决高级计算机视觉任务。

2024-05-06 14:38:42 1087 1

原创 SLAIM：一个实时的RGB-D NeRF-SLAM系统

SLAIM：一个实时的RGB-D NeRF-SLAM系统与现有的NeRF-SLAM系统相比，我们的方法在跟踪性能上始终表现出更强的竞争力。我们的方法采用体积密度表示，并引入了一种新的KL正则化器在射线终止分布上，将场景几何限制为空隙空间和不透明表面。

2024-05-06 12:56:28 1126

原创 Python机器学习手册：从预处理到深度学习的实际解决方案

这本实用指南提供了200多个自洽的方案，帮助您解决在工作中可能遇到的机器学习挑战。如果您熟悉Python及其库，包括pandas和scikit-learn，则可以解决特定的问题，从加载数据到训练模型和利用神经网络。

2024-05-04 14:47:36 505

原创基于MATLAB的机器学习和深度学习

本书详细解释了MATLAB工具或应用程序的属性，包括输入和输出参数，通过附带的文本或表格指出其限制或适用性，并提供了一个完整的运行示例，其中包括所需的所有MATLAB命令提示代码。

2024-05-04 14:45:01 706

原创 117篇 | 3D Gaussian Splatting论文

本论文集划分为4个部分：综述&基础（14篇）、NeRF在AIGC（54篇）、NeRF在SLAM（自动驾驶）（25篇）、NeRF之场景建模（25篇）

2024-05-03 22:09:50 886

原创室内定位：技术与应用

本书提供了实现室内定位的各种方法的大量技术概述。这些方法包括基于传感器、相机、卫星和其他基于无线电的方式的方法。本书还讨论了某些实现的简化，描述了读者如何设计符合规范并遵循既定技术的解决方案。还介绍了用于定位的主要技术，包括角度测量、距离测量、多普勒测量和惯性测量。

2024-05-03 13:08:55 615

人工智能-深度学习理论讲义

人工智能深度学习理论讲义

2022-08-24

17篇三维点云处理综述合集

通过阅读17篇点云处理的综述文章，可以全面了解三维点云处理的技术发展、了解其发展路线，包括点云物体检测、点云语义分割，深度学习在点云处理中的应用，自动驾驶中的点云处理等多个方面，便于刚刚接触点云方向不久的伙伴，进行合理的学习规划，也方便对自己的研究方向进行更好的分析与了解。

2022-08-18

基于 GPU 的大规模音频理解和合成解决方案.pdf

字节跳动人工智能实验室语音团队-基于GPU的大规模音频理解和合成解决方案，包括：音频合成关键技术、音频理解重点应用场景、音频合成技术展示、训练平台、推理框架等等内容

2020-04-16

刘知远-Introduction to Graph Neural Networks.pdf

Graphs are useful data structures in complex real-life applications such as modeling physical systems, learning molecular fingerprints, controlling traffic networks, and recommending friends in social networks. However, these tasks require dealing with non-Euclidean graph data that contains rich relational information between elements and cannot be well handled by traditional deep learning models (e.g., convolutional neural networks (CNNs) or recurrent neural networks (RNNs)). Nodes in graphs usually contain useful feature information that cannot be well addressed in most unsupervised representation learning methods (e.g., network embedding methods). Graph neural networks (GNNs) are proposed to combine the feature information and the graph structure to learn better representations on graphs via feature propagation and aggregation. Due to its convincing performance and high interpretability, GNN has recently become a widely applied graph analysis tool.

2020-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人