
具身智能
文章平均质量分 92
具身智能最新技术以及体系化的介绍传统经典
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
-
ViT篇外:NVIDIA Llama-3.1-Minitron 4B
LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在许多具有挑战性的任务中表现出色,包括编码、推理和数学。但是部署它们需要大量资源。开发小型且高效的语言模型成为热门,毕竟好用且部署成本要低很多。原创 2024-08-19 20:47:54 · 1189 阅读 · 0 评论 -
Meta再下一城:SAM 2
“继用于图像SAM取得成功之后,我们发布了SAM 2,这是一种用于在图像和视频中实时进行对象分割的统一模型。” 模型适用于增强现实(AR)、虚拟现实(VR)、机器人、自动驾驶车辆和视频编辑等需要时间定位的应用。原创 2024-07-31 06:54:19 · 1424 阅读 · 0 评论 -
ViT:5 Knowledge Distillation
知识蒸馏是一种技术,在这种技术中,较小的模型从更大、更复杂的模型中学习以复制其性能,从而在保持预测准确性的同时实现高效部署。视觉转换器(ViT)的知识蒸馏 (KD)技术可分为两种主要类型:同态KD 和异态KD。原创 2024-06-23 19:17:30 · 1538 阅读 · 0 评论 -
ViT:4 Pruning
视觉转换器(ViT)架构已经广受欢迎,并广泛用于计算机视觉应用。然而,随着 ViT 模型规模的扩大,可训练参数直线上升,从而影响了部署和性能。因此如何进行有效的优化成为热点领域,各种的研究方向层出不穷。下图左一为基本的ViT块,左二到左五代表着紧凑架构优化法、剪枝优化法、知识蒸馏法和量化优化法。橙色虚线的部分代表每个领域重点优化的组件。原创 2024-06-23 19:13:20 · 1313 阅读 · 0 评论 -
ViT:3 Compact Architecture
本文先来看看Compact Architecture的优化方向。神经网络架构优化法是指设计轻量级和高效的模型,同时需要在下游任务中保持高性能。这种方法的研究集中在2021年-2022年,紧凑架构对于算力不那么充裕的终端的确是一个很好的改进。原创 2024-06-24 17:53:41 · 799 阅读 · 0 评论 -
ViT:2 理解CLIP
语言-图像对比的预训练模型(CLIP)是由OpenAI开发的多模态学习架构。它从自然语言监督中学习视觉概念。它通过在包含图像及其相应文本描述的大规模数据集上联合训练模型来弥合文本和视觉之间的差距。原创 2024-06-10 21:44:43 · 2199 阅读 · 0 评论 -
ViT:1 从DETR说起
卷积神经网络目前在不同的计算机视觉图像识别任务中处于领先地位,Vision Transformers (ViT) 最近成为卷积神经网络CNN的有力替代品。在计算效率和准确性方面,ViT 模型的表现几乎比目前最先进的CNN高出 4 倍。原创 2024-05-25 19:23:01 · 1252 阅读 · 0 评论 -
一文读懂OpenGVLab带来的最新视觉预训练框架
LCL首次探索了使用交错图像文本数据,进行视觉模型预训练。这篇文章从理论上证明了latent compression等价于最大化因果模型的输入和输出之间的相互信息,并将该目标进一步分解为两个基本的训练任务,最终得到了更鲁棒的视觉表征。原创 2024-06-18 22:08:42 · 1312 阅读 · 0 评论 -
4M-21:霸气侧漏高效的20+多模态AI模型
研究人员在多模态掩码预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM 片段、3D人体姿势、调色板等。该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型原创 2024-06-18 22:06:21 · 1892 阅读 · 0 评论 -
多模态大模型:基础架构
多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉问答和图像字幕。这些模型利用大规模预训练,集成了多种数据模态,以显著提高其在各种应用程序中的性能。原创 2024-06-16 12:43:59 · 2855 阅读 · 0 评论 -
Llama 3-V: 比GPT4-V小100倍的SOTA
大模型领域风云变幻莫测。先是Llama3风靡全球,在几乎所有基准测试中都超越GPT-3.5,部分的基准测试超越了 GPT4。随后,GPT-4o横空出世,凭借其多模态重新夺回王位。而本文中的Llama3-v是研究人员带来新的惊喜,先看下图的统计。Llava是目前最先进的多模态理解模型,LLama3-V与Llava(多模态理解领域的SOTA)相比,提升了 10-20%。此外,除了MMMU之外,在其他指标的表现上和规模大于其 100 倍的闭源模型都毫不逊色。原创 2024-05-29 15:39:47 · 1681 阅读 · 0 评论 -
Octo 精武门? :开源的通用机器人模型
Octo是为构建开源的、广泛适用的通用机器人操作策略所做的持续努力。它是基于Transformer的扩散策略,采用Open X-Embodiment数据集中的 80万个机器人操作片段来进行预训练。它支持灵活的任务和观察定义,并且可以快速微调到新的观察和动作空间。即将推出两个初始版本的 Octo,分别是Octo-Small(27M参数)和Octo-Base(93M参数)。原创 2024-05-26 20:42:56 · 1943 阅读 · 0 评论