- 博客(20)
- 收藏
- 关注
原创 LLM(大型语言模型) 和 VLM(视觉语言模型)
首个版本为Gemini 1.0,包括三个不同体量的模型:用于处理“高度复杂任务”的Gemini Ultra、用于处理多个任务的Gemini Nano和用于处理“终端上设备的特定任务”的Gemini Pro。从2023年12月13日开始,开发者和企业客户可以通过Google的AI Studio和Google Cloud Vertex AI中的Gemini API访问Gemini Pro。:结合掩码语言建模(MLM)与图像-文本匹配(ITM)任务(如VisualBERT)7。
2025-03-18 14:56:51
1148
原创 解释VLA和具身智能之间的关系
视觉-语言-动作(Vision-Language-Action,VLA)模型是指能够同时处理视觉和语言输入,并产生动作输出的模型,用于在物理环境中完成任务 ()。换句话说,VLA 模型将计算机视觉对环境的感知、自然语言对指令的理解,与动作控制结合起来,直接从图像/视频和文本推断机器人应该执行的操作 ()。这一多模态能力使机器能够“看”,能够“读/听”,并能够“动”,从而在开放环境下完成复杂指令。
2025-03-14 21:51:27
751
原创 Claude、ChatGPT、Gemini等主流AI模型。分别详细介绍它们并进行对比,需要指出关键的时间点
**维度** | **Claude** | **ChatGPT** | **Gemini** || **核心优势** | 编码能力、安全性、长文本处理 | 多功能性、用户生态、实时数据 | 多模态集成、成本效益、Google生态 |
2025-03-11 20:38:36
703
原创 如何看torch 和torchvision版本,如何看CUDA的版本,我是ubuntu的系统,建立的环境是py38。
如何看torch 和torchvision版本,如何看CUDA的版本,我是ubuntu的系统,建立的环境是py38。在 Ubuntu 下,你可以使用以下命令来检查。
2025-03-07 16:13:23
661
原创 为什么有两个 Downloading imgviz-1.7.6
说明这里面的警告,然后再告诉我,为什么有两个 Downloading imgviz-1.7.6-py3-none-any.whl.metadata (6.2 kB)。,这是包的元数据(metadata),通常用于解析依赖关系,体积小(通常只有几 KB)。以优化解析依赖关系,减少下载不必要的包。如果还是有报错,可以把错误日志发过来,我帮你分析!如果 GUI 界面弹出,说明一切正常!连接 PyPI 失败。从 pip 21.3+
2025-02-28 11:27:06
412
原创 一些大佬们关于强化学习使用的仿真平台的回答
3. **MuJoCo (Multi-Joint dynamics with Contact)**: 高性能的物理引擎,广泛用于强化学习中的机器人仿真,尽管它是一个商业软件,但其精确的物理模拟使其成为研究者的首选。6. **ROS2**: 机器人操作系统的第二代,提供了丰富的工具和库,可以与Gazebo等仿真环境结合使用,进行强化学习研究。8. **Webots**: 一个用于机器人仿真的开源软件,提供了多种机器人模型和传感器,支持强化学习算法的开发。支持,所以能处理大量的物理运算,其他几款暂时没得比)。
2025-01-10 16:39:27
1265
原创 Firefox浏览器数据同步
只要你在两台设备上都安装了火狐浏览器,并使用相同的火狐账户登录,就可以实现书签、历史记录、密码等数据的同步。然后有一些选择步骤,可以把之前IE浏览器的数据也同步到火狐浏览器中。ubuntu系统默认安装的是国际版,所以我在笔记本上安装火狐国际版,在浏览器地址栏输入 https://www.mozilla.org/zh-CN/firefox/new/,直接访问。解决方法是确保两台设备上的火狐浏览器都使用的是相同的同步服务,即要么都是中国版的本地同步服务,要么都是国际版的全球同步服务。,可能会遇到与国际版账号。
2025-01-09 20:17:11
810
原创 VLA、LLM和VLM
2023年7月28日,谷歌DeepMind发布了全球首个控制机器人的视觉语言动作(VLA)模型RT-2,这个模型是在视觉语言模型(VLM)的基础上发展而来的,它利用了机器人或汽车运动轨迹的数据,进一步训练这些现有的VLM,以输出可用于机器人或汽车控制的动作序列。指的是大型语言模型,这些模型在自然语言处理(NLP)领域取得了显著的进展,能够理解和生成自然语言文本。VLM是VLA模型的基础,它为VLA提供了视觉和语言的融合能力,使得模型能够理解视觉内容并将其与语言指令相结合,以执行复杂的任务。
2025-01-08 14:56:40
1986
原创 VS Code中转到定义、转到声明、转到类型定义
理解 转到定义、转到声明、转到类型定义 这些的意思。从你提供的截图来看,这些功能是 Visual Studio Code (VS Code) 提供的一些辅助导航功能,用于更高效地浏览和理解代码。以下是功能的作用和用法,以及如何利用它们更好地理解代码。
2024-12-30 11:49:38
2881
原创 添加纹理。
⽀持以下5种纹理映射⽅法:投影贴图:将纹理简单地投影到对象的X-Y平⾯上(请参⻅上⽂)。将计算纹理坐标。圆柱贴图:将纹理包裹在对象的Z轴上。将计算纹理坐标。球⾯贴图:将纹理球⾯贴图到对象上。将计算纹理坐标。箱形贴图:将纹理应⽤于箱形对象的所有6个⾯上。将计算纹理坐标。导⼊的纹理坐标:通过OBJ⽂件格式,可以在导⼊⽹格的同时导⼊特定的纹理坐标。
2024-12-25 09:21:24
134
原创 yolov8s-seg.yaml运行结果
从你的输出来看,第99次和第100次的训练结果都显示了详细的评估指标。这些指标是针对每一个epoch单独计算的,而不是累积的结果。因此,第100次的训练结果是在第100个epoch结束时的评估结果,而不是前面所有epoch的总结果。你提供的训练结果中包含了多个epoch的输出信息。Q:这个训练结果是每一次的mPA还是总结果,100次的时候训练已经结束了,那么总的结果在哪里看呢?就是我想问第100次的结果是前面全部的结果吗,还单单只是第100次的结果。: 分别表示边界框损失、分割损失、分类损失和深度损失。
2024-12-09 09:50:00
421
原创 2024的main.py导入的库
from models import push_grasp_net, goal_conditioned_net可能是因为在trainer.py文件中已经导入了models.py中的相关模块(如push_grasp_net, goal_conditioned_net),所以在main.py中就不需要再次导入models.py。下面是2018年的代码中的Python 脚本文件,其中calibrate.py debug.py plot.py touch.py四个文件在2024年的文件夹中是没有的。
2024-10-17 15:59:14
825
1
原创 ubuntu20.4下载微信
根据这个的第二种方法,但是在这个过程中要更新一些软件包,怕更新以后系统出问题,就没有再继续下去了。在sudo apt update这步第一次是没有开外网,第二次开了如下没有报错。打算下载优麒麟的wine版本的微信参考的一个csdn上的连接,下面是连接的地址。然后看到另一个wineHD的方法下载微信 ,连接如下。在这里要安装了,但是提示要升级一些软件包。下载后有图标但是无法打开。于是用的第一种下载成功。
2024-08-28 11:24:20
555
原创 论文复现Pushing and Grasping Policies(3)
没有训练出来结果,但还是想运行下评估的命令,看到项目本身有测试的文件夹,于是,将主目录下的 evaluate.py 文件放在 ~/pushing_and_grasping/simulation/test-cases 目录下。然后,想到刚才进行了测试,虽然结果不完全,于是在~/pushing_and_grasping目录下执行python evaluate.py命令,前提是修改evaluate.py文件的第四行。分析测试的两行命令,这两个命令在大多数参数上是相同的,但在对象数量和测试预设文件上有所不同。
2024-07-05 15:41:19
1732
原创 论文复现Pushing and Grasping Policies(2)
其余的前5个参数如下,其实这里的③④⑤和目标相关抓取运行的main.py的参数--grasp_goal_conditioned --goal_conditioned --goal_obj_idx 4是一样的。目前理解为,在只推送的训练过程中也是抓取操作的,比较抓取和推动的得分才决定知否进行推动操作,因为如果抓取的得分高是没有必要推动的,但这个得分是如何评判的?二、分析训练-训练推动的指令 ,目前看来机械臂还是在抓取,并不是推动操作,但和上面的抓取不一样的是这里的末端关节在旋转(也就看见一次)。
2024-07-04 21:48:04
1845
原创 学习笔记-Part6 Dataset类代码实战
最后,这个训练集的标签是ant或bee,比较简单,当标签比较复杂时,常用的训练集形式如下图,image存放图片,label存放标签,label里面是许多.txt文档,标签和图片的名称对应。同理可以显示bees文件夹中的图片。训练集是ants和bees的集合,使用len(train_dataset)可以查看训练集的列表长度,这里蚂蚁是124张图片,蜜蜂是121张图片,相加是245张图片,所以123显示图片是蚂蚁,124显示图片是蜜蜂。这样可以添加一些仿造的数据集,还可以创建子数据集。
2024-07-04 13:20:25
254
原创 论文复现Pushing and Grasping Policies
再次执行第一个命令,出现另外一个错误,无法连接到CoppeliaSim(以前称为V-REP)的远程API服务器,于是,在~/CoppeliaSim_Edu_V4_7_0_rev4_Ubuntu20_04下打开一个终端,输入 ./coppeliaSim.sh,成功启动CoppeliaSim。开始使用第一行配置环境,报错显示哈希值不匹配,可能还有网络的原因,期间尝试过换成清华源,于是先清除通道再开始一个库一个库的进行安装,最后,看CoppeliaSim中的返回值,在终端安装了两个库。关于protobuf。
2024-07-03 21:21:32
1825
4
原创 学习笔记-Part5 PyTorch加载数据初认识
Part6的正在看,下面是在python console(python控制台)中输入以及返回的内容。下面.py是文件里的内容,暂时看到Part6的这里,所以.py内容不全。看的课程是B站up主小土堆的PyTorch深度学习快速入门教程。
2024-07-03 14:11:30
202
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人