进一寸有一寸的欢喜

如果用10年以上的时间坚持学习和分享某一领域，将会是怎么样喃？ “一五计划":2018.06 ~2023.07 : 初步实现了在CV领域每月一篇技术总结。 “二五计划” (2023.07 ~2028.08)：计划每周一篇博客，在小的领域出一个超过20篇的

原创【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归？

从2013-2024 图像生成，文生图经典论文目录

2025-01-20 16:52:51 2199 2

原创【综述+LLMs+中文图书】国内团队大语言模型综述（截止2024.02）——A Survey of Large Language Models

大语言模型使用无标注语料库进行预训练，当模型大小达到一定数量，出现智能涌现，能够进行小模型不具备的能力：下文学习，在未经过特定任务微调的情况下能够理解并响应复杂指令**；以及对新任务的适应性，即基于给定的输入示例就能够推断出相应的输出模式

2024-03-25 18:11:14 2833

原创【论文综述+多模态】腾讯发布的多模态大语言模型（MM-LLM）综述(2024.02)

多模态大语言模型：Multimodal Large Language ModelsMM-LLM =预训练单模态模型（含LLMs） + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型，特别是强大的大型语言模型（LLMs），作为认知核心，赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习（ICL）等可取特性在这一领域中，主要关注点是通过多模态预训练（MM PT, Pre-Training）+ 多模态指令调整。

2024-02-29 15:43:23 7653

原创【ROS2+深度相机】在Ubuntu安装realsense-ros

本文介绍了在ROS 2环境中安装和使用Intel RealSense相机的完整流程。主要内容包括三个步骤：1)安装ROS 2系统；2)安装RealSense SDK 2.0并验证；3)安装ROS Wrapper并启动相机节点。文档提供了详细的安装命令，包括一键安装脚本、SDK注册和内核驱动安装等。还介绍了使用ros2 run和ros2 launch两种方式启动相机节点的方法，以及修改参数和命名空间的示例。最后列出了相机节点发布的主要ROS topic信息，为开发者提供了完整的RealSense相机在ROS

2025-11-04 18:41:41 968

原创【LeRobot v0.4.0】多GPU训练，可扩展的Datasets v3.0，支持更多VLA（PI0.5和GR00T N1.5），增加了对 LIBERO 和 Meta-World仿真

发布时间：2025.10.25。

2025-10-31 17:56:18 1183

原创【Figure AI】一个 Helix 网络模型实现精细操作和导航命令（直接从人类第一视角视频到机器人的迁移）

要让机器人在家庭环境中达到人类水平的智能，需要这些机器人能从大规模的现实世界中学习。今天，我们宣布在HelixProject Go-Big：互联网规模的拟人预训练。Figure 正在构建世界上最大、最多样化的拟人机器人预训练数据集，。零样本人类视频 → 机器人迁移。Helix 已经达成一个新的学习里程碑：仅通过以第一视角拍摄的人类视频训练，Figure 的机器人现在能够从仅通过以第一视角拍摄的人类视频训练，Figure 的机器人现在能够从“去冰箱”这样的自然语言命令出发，在杂乱的真实环境中导航

2025-09-29 11:04:59 761

原创【论文】2508.让通用人形机器人打乒乓 _HITTER: A HumanoId Table TEnnis Robot via Hierarchical Planning and Learning

人形机器人在行走和整体控制方面（）最近取得了令人瞩目的进展，但在那些需要与动态环境进行快速交互的任务中仍受限。乒乓球正是此类挑战的典型例子：球速超过 5 m/s，玩家必须在亚秒级反应时间内感知、预测（predict）并行动（act），这既需要敏捷性也要精准。为了解决这一问题，我们提出一个分层框架来实现人形机器人打乒乓：集成了用于球轨迹预测。

2025-08-31 22:30:47 1021

原创【机器人+相机通讯】宇树科技相机通信

相机与机器人通信

2025-07-31 22:19:34 732

原创【数据采集+人形机器人】使用 Apple Vision Pro 对宇树（Unitree）G1 和 H1 人形机器人进行全身的遥操作控制

北京银河通用机器人，开源了基于 Apple Vision Pro ，针对下半身控制，我们的方法允许使用者通过一对摇杆控制器来操控人形机器人行走或改变身体姿态。而上半身控制方面，机器人手部动作是通过逆向运动学算法，从VR设备捕捉到的人手位姿数据计算得出的。

2025-06-11 10:22:37 1480

原创【ROS2】核心概念8——参数设置（Parameters）

ros2节点（node）参数设置（Parameters）

2025-06-08 19:30:38 947

原创【论文+硬件】HOMIE：定制外骨骼、手套和脚踏座舱低成本操控人形机器人+强化学习自主下蹲抓取物体框架

通过结合强化学习策略与低成本“同构外骨骼”硬件，让单一操作者能够更稳定、快速且精准地控制人形机器人进行步行、下蹲、抓取、搬运等动作

2025-06-06 10:19:30 1189

原创【ROS2】核心概念6——通信接口语法（Interfaces）+ 信息发布实战

ROS 2使用简化的描述语言，即接口定义语言（ interface definition language，IDL）来描述这些接口。话题（.msg），服务（.srv），动作（.action）

2025-05-18 23:27:33 1058

原创【ROS2】虚拟机使用fishros脚本一键安装humble

在windows上安装虚拟机+ubuntu22.04

2025-05-18 19:58:15 873

原创【ROS2】核心概念5——服务（service）

话题和服务是ROS中最为常用的两种数据通信方法，话题（topic）适合传感器、控制指令等周期性、单向传输的数据服务（service）适合一问一答，同步性要求更高，比如获取机器视觉识别到的目标位置

2025-05-14 12:51:13 1131

原创【ROS2】核心概念4——话题（node）

ROS2的Topic，节点间异步传递数据的“桥梁”，基于发布/订阅模型（如传感器数据流）。

2025-05-09 11:42:11 1250

原创【论文+VLA】2505.GraspVLA——基于十亿级合成动作数据预训练的抓取基础模型(即将开源)

GraspVLA，一个完全基于合成数据预训练的抓取基础模型（基于Franka机械臂和固定视角配置），旨在通过大规模合成数据解决真实数据不足的问题，并实现开放词汇的抓取泛化。

2025-05-08 15:12:33 2111

原创【ROS2】核心概念3——节点（node）

节点:机器人的工作细胞。执行具体任多的进程。独立运行的可执行文件。可使用不同的给程语言。可分布式运行在不同主机。通过节点名称进行管理

2025-05-07 15:12:41 1133

原创【MuJoCo仿真】开源SO100机械臂导入到仿真环境

so100导入到仿真环境，方便后续操作和仿真

2025-04-29 18:34:44 2295

原创【仿真】Ubuntu 22.04 安装MuJoCo 3.3.2

MuJoCo ： Multi-Joint dynamics with Contact 表示：接触的多关节动力学。是一种免费的开源物理引擎，旨在促进机器人技术 robotics，生物力学 biomechanics，图形和动画以及需要快速准确模拟的其他领域的研发

2025-04-29 17:56:59 1384

原创【ROS2】核心概念2——功能包(package)

ros2 pkg create 是ROS2中用于快速生成功能包（Package）的命令工具，通过参数配置可自动化生成包结构、元数据（package.xml）和构建规则（CMakeLists.txt），大幅提升开发效率。

2025-04-29 14:31:59 1166

原创【ROS2 】核心概念1——工作空间（workspace）

在ROS机器人开发中，我们针对机器人某些功能进行代码开始时，各种编写的代码、参数、脚本等文件，也需要放置在某一个文件夹里进行管理，这个文件夹在ROS系统中就叫做工作空间。

2025-04-28 12:52:20 1173

原创【ROS2】ROS开发环境配置——vscode和git

ROS机器人开发肯定离不开代码编写，基于git和vscode查看、编写、编译

2025-04-27 10:13:19 699

原创【ROS2】机器人操作系统安装到Ubuntu22.04简介（手动）

ROS2: 第二代机器人操作系统，2022年5月底，迎来了ROS2第一个长期支持版——ROS2 Humble。多机器人系统\跨平台\实时性

2025-04-23 14:33:57 690

原创【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet

so100采集数据后，数据格式解析

2025-04-16 16:13:49 2276 1

原创【lerobot】so100硬件简介——飞特Servo + 舵机驱动板模块

SO100舵机STS3215与舵机驱动板特性了解

2025-04-16 11:14:23 1890

原创【lerobot】3-开源SO-100 主从臂的舵机位置校正、遥控操作（ubuntu系统）

lerobot so-100装配完毕如何进行遥操作。

2025-04-14 18:20:55 1230

原创【机器人+VLA】25.03 GR00T N1:英伟达第一个开源的通用的人形机器人VLA模型

NVIDIA Isaac GR00T N1：全球首个开源且完全可定制的基础模型，该模型接受包括语言和图像在内的多模态输入，以在不同的环境中执行操作任务，可赋能通用人形机器人实现推理及各项技能。

2025-04-07 20:22:13 1529

原创【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起（￥2535）端到端（SIM2REAL，RL）3D打印的（包括硬件、SDK、 sim环境）基于视觉、强化学习走路、以及语音

Zeroth-01是一种开源端到端类人形机器人，起价为350美元，具有视觉，基于RL的步行和语音。特点带有开源机器人和仿真环境的SIM2REAL转移。深度RL的端到端控制。VLA：可推广视觉语言行动策略。负担能力：我们通过开源硬件和软件使机器人更加负担得起。

2025-03-11 11:22:37 2212

原创【机器人+VLA】2406.OpenVLA: 开源的视觉–语言–动作模型用于训练通才机器人，An Open-Source Vision-Language-Action Model

OpenVLA 是一个开源的视觉–语言–动作模型，拥有 70亿参数（7B），通过在 97 万机器人示范片段(episodes)上微调（数据来源 Open X-Embodiment），为通才（generalist）机器人操作策略 (manipulation policies) 设置了新的技术水平

2025-03-06 10:10:14 3383

原创【机器人+VLA】2410.Pi0_一种（开源）语言视觉控制的通用机器人——A Vision-Language-Action Flow Model for General Robot Control

介绍了 Physical Intelligence 公司开发通用机器人基础模型 π0 的成果及展望。当前 AI 在物理世界应用存在局限，该公司经八个月研发 π0 以迈向人工物理智能目标。π0 基于大规模数据训练，融合图像、文本与动作，能跨多种机器人执行任务并可微调适应复杂场景。其通过独特架构从机器人具身经验获取物理智能，在洗衣、清理餐桌、组装盒子等任务上表现优于其他模型。我们的通才机器人策略使用预先训练。

2025-02-24 18:41:16 955

原创【机器人+模仿学习】Diffusion Policy: 通过行动扩散的视觉运动策略学习Visuomotor Policy Learning via Action Diffusion

扩散策略，这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法

2025-02-24 17:54:03 1506

原创【机器人】mobile-aloha:可移动可学习遥控操作机器人 Learning Bimanual Mobile Manipulation with Whole-Body Teleoperation

引入了一个低成本的移动操作系统，该系统是双手的，并支持全身远程操作。该系统的成本为 32k，包括板载功率和计算。左：用户远程操作以从冰箱中获取食物。右图:移动ALOHA可以通过模仿学习执行复杂的长期任务

2025-02-24 16:12:28 1562

原创【机械臂】ACT Policy：使用低成本硬件学习细粒度的双手操作：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

使机械臂精细化操作，只需要不到2000元

2025-02-24 12:14:03 1592

原创【AI前沿+机器人】Helix：可多机器人协作、能拿起任何东西、整个人形上身控制的、可嵌入式低功耗GPU部署的、通用人形机器人控制的视觉-语言-动作(VLA）模型

Figure 发布 Helix 机器人视觉语言行动模型：•历史上第一个类人机器人上身的高速连续控制模型•可以两台机器人用一个模型控制协作完成任务•可以捡起任何东西，不管他是否原来就认识•历史上第一个在本地GPU运行的机器人模型

2025-02-23 22:06:28 1647

原创【FLUX微调+风格训练】从零免费训练自定义图像风格

免费风格微调的完整教程，基于（找图+清理筛选+打标+训练+推理验证

2025-02-20 18:38:27 795

原创【DeepSeek-R1】满血版免费网页端使用（不卡顿，支持联网搜索）

卡顿支持联网搜索。

2025-02-18 18:39:44 9773

原创【ollama安装】国内 linux 环境安装ollama

使用命令行前，请确保已经通过pip install modelscope 安装ModelScope。

2025-02-07 10:59:47 5747 2

原创【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

deepseek-r1-1.5B本地部署, 仅需2G-3G显存

2025-02-06 18:28:41 3422

原创【ComfyUI】python调用生图API，实现批量出图

官方给的示例：https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scrip

2025-01-23 18:25:12 4545 2

原创【API】免费调用Qwen-vl2对图像打标

免费调用Qwen-vl2对图像打标

2025-01-13 15:18:35 2743

台大李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

台大李宏毅教授VAE+GANs的讲解ppt 官网：https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/VAE%20(v5).pdf 也可以参考其他人的资源 https://blog.youkuaiyun.com/sinat_25346307/article/details/79108110

2024-05-27

VAE最简单代码实现，手写字符的预训练模型 checkpoint-8.pth

用作博客演示与复现

2024-05-27

【hugggingface】批量加速下载HuggingFace上的模型

2024-03-06

检测标注软件（labelImg labelme ）（目标检测、分割）

labelImg 可以输出voc和 yolo的标注格式 labelme 可输出json并转化为多种格式 windows下直接运行链接： https://gitee.com/monkeycc/labelme/releases/tag/v5.2.0.post4 https://github.com/wkentaro/labelme/releases/tag/v5.2.0.post4 https://gitee.com/monkeycc/anylabeling https://github.com/HumanSignal/labelImg https://github.com/HumanSignal/labelImg/releases

2023-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

台大 李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

VAE最简单代码实现，手写字符的预训练模型 checkpoint-8.pth

【hugggingface】批量加速下载HuggingFace上的模型

检测标注软件（labelImg labelme ） （目标检测、分割）

图片感兴趣区域ROI获取-鼠标选择矩阵区域+不规则多边形区域（anoconda3.4+spyder+python3.5+opencv3.4）

旋转框标注软件rolabelImg（win10可用）

C语言2种方式实现简单单链表的创建

空空如也

台大李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

检测标注软件（labelImg labelme ）（目标检测、分割）