- 博客(104)
- 收藏
- 关注
原创 RAFT光流估计
本文介绍了光流概念与RAFT算法。光流描述了视频中像素点的运动轨迹,RAFT则是2020年ECCV最佳论文提出的最优光流算法。该算法通过特征提取、构建相关体积、多尺度池化和GRU迭代更新等步骤,精确计算两帧图像间的像素位移。输入为连续两帧图像,输出为包含每个像素运动向量的光流图。RAFT可应用于视频稳定、动作识别、自动驾驶和视频压缩等多个领域,通过分析像素运动模式实现多种实用功能。
2025-11-05 17:27:53
323
原创 神经辐射场(NeRF)
NeRF(神经辐射场)是一种革命性的3D场景重建技术,能够从多张2D照片中学习3D场景的连续表示。其核心是一个小型神经网络(约5MB),将3D空间压缩存储为位置和方向的函数,输出每个点的密度和颜色。通过位置编码增强细节感知,再结合体渲染将3D信息投影为2D图像。训练时,NeRF通过对比预测与真实像素颜色优化网络,最终实现从任意新视角生成逼真图像。相比传统体素方法(需500MB存储),NeRF压缩率超100倍,且支持连续坐标查询,完美还原镜面反射等视角相关效果。代码示例展示了基于PyTo
2025-11-05 17:18:41
448
原创 MapAnything: 通用前馈式度量3D重建
MapAnything 是一个简单的端到端训练的 Transformer 模型,能够根据各种输入类型(图像、校准参数、姿态或深度)直接回归场景的分解度量3D几何。多图像SfM(运动恢复结构)多视图立体视觉单目度量深度估计配准深度补全等是 Meta AI 研究院发布的通用3D重建模型,能够从各种输入(图像、相机参数、深度、姿态等)直接重建场景的3D几何结构。# 准备数据集(WAI格式)# 训练模型。
2025-10-24 21:16:37
828
原创 UniVLA训练思路
UniVLA的核心创新是使用**潜在动作模型(Latent Action Model)**从视频中提取任务相关的动作表示,而不是直接预测具体的机器人动作。**关键点:潜在动作被映射为特殊token {ACT_0, ACT_1, …这是UniVLA独特的部分,训练一个能从视频中提取"抽象动作"的模型。在特定任务上微调,添加机器人特定的action decoder。训练一个能理解视觉、语言并预测潜在动作的大模型。,这使得模型能高效地在不同机器人和任务间迁移!有什么具体环节需要我详细解释吗?
2025-10-23 22:28:09
365
原创 LIBERO 完整文档集索引
您现在拥有6份完整文档,涵盖LIBERO的方方面面:总计: 188KB,6678行,涵盖LIBERO全部核心内容!文件: | 41KB | 1424行文件: | 12KB | 473行3个notebook的核心代码片段速查表文件: | 49KB | 1702行10个工具脚本的完整讲解:文件: | 11KB | 339行脚本工具的速查卡片文件: | 64KB | 2237行深度剖析 文件夹的核心代码Part 1: libero/libero/ - 环境系统Part 2: libero/lifelo
2025-10-23 10:53:29
439
原创 LIBERO 工具脚本完全讲解
阶段推荐脚本目的初始化设置项目环境探索了解对象能力设计创建新任务数据收集收集训练数据数据处理生成训练集验证质量检查。
2025-10-23 10:36:50
404
原创 LIBERO Notebooks 快速参考指南
LIBERO Notebooks 使用指南摘要 本指南涵盖四个核心Notebook的使用方法: quick_walkthrough.ipynb - 基础入门 展示LIBERO路径管理、基准测试获取和任务加载 提供环境初始化和基本操作示例 procedural_creation_walkthrough.ipynb - 任务创建 分三步创建新任务:查看资源、定义场景、生成任务 包含50+对象和10种谓词的使用方法 演示场景模板注册和BDDL文件生成 custom_object_example.ipynb - 自
2025-10-23 10:27:22
473
原创 SpatialVLA
SpatialVLA本质是给机器人加了“空间思维”:靠3D编码看懂环境,靠自适应动作格子适配不同机器人,再通过“预训练+微调”兼顾通用和灵活。现在它能高效完成捡东西、分类、精细操作(比如插充电器),未来还能优化处理更复杂的任务(比如长时间连续操作),让机器人更像“能理解空间的帮手”。
2025-09-27 22:40:23
592
原创 大白话讲UniVLA
更灵活:能跨机器人、跨场景用,不用为每个新机器人/场景从头训;更高效:不用大量标注数据,能利用网上的视频,训练成本还低;更实用:在真实环境里表现稳定,能处理复杂任务和突发干扰。未来还想优化的方向:比如让“隐藏动作”能自动适应不同任务难度,或者支持双机械臂、更灵活的机器人操作。“隐藏动作单元”可以理解成机器人用来“思考动作”的“通用小模块”——它不是具体的“抬手”“弯腰”这类实际动作,而是把各种复杂动作拆解、提炼出的“核心动作代码”,专门解决机器人“学动作难、换场景难”的问题。
2025-09-27 21:28:20
757
原创 数学建模-数据预处理
本文介绍了数据预处理在数学建模中的关键作用,主要包括数据清洗、数据变换和特征工程三个核心环节。数据清洗涉及处理缺失值(删除、补全、插值等方法)、异常值(分位点法、标准差法)和重复值。数据变换包含标准化(归一化、z分数)和离散化(等宽法、等频法)技术。特征工程则通过特征选择、特征提取和特征构造来优化模型性能。这些预处理步骤能有效提高数据质量,增强模型的准确性和泛化能力。
2025-09-15 18:52:10
1134
原创 2025.7.25论文阅读
该研究比较了单模态与多模态在肺癌筛查中的效果,发现多模态数据融合(尤其是全中间融合方法)显著优于单一模态输入。研究采用AUC作为评估指标,其优势在于对类别不平衡不敏感且独立于分类阈值。但存在数据来源局限、影像处理可能引入偏差、结节ROI手动创建的主观性、临床特征选择不充分以及未能全面考虑肺癌复杂性等问题,可能影响模型泛化能力。
2025-07-22 11:52:15
415
原创 onda和pip换源
一、pip镜像清华pip镜像阿里pip镜像腾讯pip镜像豆瓣pip镜像网易pip镜像临时使用另外如果临时使用可以使用替换“xxx”为你需要安装的模块名称。二、conda镜像清华conda镜像注:由于更新过快难以同步,我们不同步pytorch-nightly这三个包。Miniconda是一个 Anaconda 的轻量级替代,默认只包含了 python 和 conda,但是可以通过 pip 和 conda 来安装所需要的包。
2025-07-10 12:50:25
301
原创 关于moveit_commander_cmdline的使用
use xxx 调用机械臂,比如我的机械臂movegroup名为gluon 调用规划组后进行控制。先启动你的moveit demo 然后启动moveit_commander。
2025-04-12 13:40:36
1050
原创 rtthread连接新版本OneNet云(mqtt)
由于rtthread中的OneNet软件包只支持旧版OneNet云,故需要做一些更改来适配新版本OneNet云。
2024-05-17 22:43:56
1013
3
原创 MISC工具使用-图片
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?
2024-04-23 00:38:42
1108
1
原创 K210-AI视觉
必须是元组列表。[(lo, hi), (lo, hi), …, (lo, hi)] 定义你想追踪的颜色范围。对于灰度图像,每个元组需要包含两个值 - 最小灰度值和最大灰度值。仅考虑落在这些阈值之间的像素区域。对于 RGB565 图像,每个元组需要有六个值(l_lo,l_hi,a_lo,a_hi,b_lo,b_hi) - 分别是 LAB L,A 和 B通道的最小值和最大值。
2023-09-05 10:23:51
907
原创 K210-调用自定义py库
用过Python的朋友应该知道,Python是支持将自定义py库(或者第三方py库)放到同一个目录下调用的,MicroPython也是支持调用自定义py库的。在调用自定义py库之前,需要提前将py库文件导入K210。
2023-09-04 16:39:28
949
2
原创 K210-烧录出厂固件
在资料中的程序源码汇总文件夹下找到出厂固件,名称为canmv_yahboom_vx.x.x.bin,其中vx.x.x为版本号。这里以烧录v2.0.5版本固件为例。点击浏览,选择要烧录的固件文件,中间的烧录地址不需要改,默认为0x00000就可以。注意:此步骤会清空K210模块的Flash程序空间,清空后程序空间后,请重新烧录固件才能连接CanMV IDE。在擦除设置中选择模式为全片擦除,选择K210模块的串口号,点击擦除开始清空程序空间。为了恢复出厂固件设置,在烧录出厂固件前,请先执行一次全片擦除操作。
2023-09-04 16:35:50
5830
20
原创 蓝桥杯-单片机类客观题真题解析
用于中断code :程序存储区(64KB)idata:固定指前面0x00-0xff的256个RAM,其中前128和data的128完全相同,只是因为访问的方式不同,是用类似C中的指针方式访问的。data:固定指前面0x00-0x7f的128个RAM,可以直接读写的,速度最快,生成的代码也最小。bdata: 可位寻址的片内ramxdata:外部扩展RAM,一般指外部0x0000-0xffff空间,用DPTR访问。pdata:外部扩展RAM的低256个字节,分页寻址片外ram。
2023-02-09 12:45:50
1000
原创 STC15IO结构
准双向口输出1:则S2闭合,S4断开,此时单片机的引脚通过 R1拉到电源上,输出高电平。推挽输出1:则S1闭合,S4断开,此时单片机的引脚直接接到电源上,输出高电平。准双向口输出0:则S2闭合,S4闭合,此时单片机的引脚通过S4接地,输出低电平。推挽输出0:则S1断开,S4闭合,此时单片机的引脚通过S4接地,输出低电平。开漏输出0:则S4闭合,此时单片机的引脚通过S4接地,输出低电平。开漏输出1:则开关全部断开,外接上拉电阻,输出高电平。高阻输入: 则开关全部断开。
2023-02-08 22:36:01
239
原创 STC15存储器和特殊功能寄存器
复位后PC指向0000H,程序存储器最开始放的是中断向量表。当我们编写C程序代码的时候 ,000H~00ABH的内容KEIL编译转换成汇编后,会自动帮我们添加。
2023-02-08 22:04:56
721
原创 STC15系列时钟
时钟周期︰时钟周期也称为振荡周期,定义为时钟脉冲的倒数(可以这样来理解,时钟周期就是单片机外接晶振的倒数,例如12M的晶振,它的时间周期就是1/12 us),是计算机中最基本的、最小的时间单位。在一个时钟周期内,CPU仅完成一个最基本的动作。对于某种单片机,若采用了1MHZ的时钟频率,则时钟周期为1us;若采用4MHZ的时钟频率,则时钟周期为250us。由于时钟脉冲是计算机的基本工作脉冲,它控制着计算机的工作节奏(使计算机的每一步都统一到它的步调上来)。显然,对同一种机型的计算机,时钟频率越高,计算机的
2023-02-08 21:10:41
1268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅