- 博客(128)
- 收藏
- 关注

原创 本地搭建属于自己的ChatGPT:基于PyTorch+ChatGLM-6b+Streamlit+QDrant+DuckDuckGo
本地部署chatglm-6b记录,解决生成式模型的时效性问题方案:通过本地数据库或者搜索引擎获取特有数据或者实时数据作为生成模型的上下文。
2023-04-16 02:55:47
15492

原创 时间/时空序列分类/预测/异常检测模型顶会论文资源汇总
本文详细总结了近几年时间/时空序列分类/预测/异常检测模型顶会论文,包括Transformer及其变体。
2022-04-03 22:50:01
18081
2

原创 计算机视觉(CV)必读论文、课程、术语汇总
计算机视觉必读论文图像分类,目标检测,GAN,GNN,OCR等,全文中英对照翻译,相关术语,代码等。
2020-09-17 19:14:07
9849
6

原创 原理+论文+实战:60篇由浅入深的时间序列预测/分类教程汇总
本文通过论文、实战教程等几十篇篇博文,梳理总结了一套系统化的时间序列预测和时间序列分类任务的入门指南。文中提及的博客、论文和教程全部内容的总字数大约在50万字到100万字之间。
2020-04-17 09:24:44
126721
103
原创 [EAI-034] 通过在线强化学习改进VLA模型
本文探讨了如何通过强化学习 (RL)——一种常用的大型模型微调技术——进一步改进这些 VLA 模型。然而,将在线 RL 直接应用于 VLA 模型会带来重大挑战,包括训练不稳定性(严重影响大型模型的性能)和计算负担(超过大多数本地机器的能力)。为了应对这些挑战,提出了 iRe-VLA 框架,该框架在RL和监督学习之间迭代,有效地改进 VLA 模型,利用 RL 的探索优势,同时保持监督学习的稳定性。
2025-02-09 20:38:52
887
原创 [EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究
本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。
2025-02-09 00:56:15
944
原创 [EAI-032] DeepSeekMath 与 GRPO 强化学习算法
由于数学推理复杂性和结构化的性质,对语言模型提出了重大挑战。本文介绍了 DeepSeekMath-7B,它基于DeepSeek-Coder-Base-v1.5-7B 构建,使用 Common Crawl 的 120B 数学相关 token 以及自然语言和代码数据进行预训练。 DeepSeekMath-7B 在不依赖外部工具包和投票技术的情况下,在竞赛级 MATH 基准测试的准确率为 51.7%,接近 Gemini-Ultra 和 GPT-4 的水平。
2025-02-07 02:19:13
950
原创 [EAI-031] DeepSeek 的 Janus-Pro,统一的多模态理解和生成模型
本文介绍了Janus-Pro,它融合了:1) 优化的训练策略,2) 扩展的训练数据,3) 更大模型参数。Janus-Pro在多模态理解和文本到图像(T2I)指令遵从能力提升显著,同时还增强了文本到图像生成的稳定性。
2025-02-04 13:44:56
1833
原创 [EAI-030] DeepSeek 的 Janus,统一的多模态理解和生成模型
本文介绍了统一多模态理解和生成的自回归框架 Janus。以前的研究(例如 Chameleon)通常依赖于单个视觉编码器来完成这两个任务。 然而,由于多模态理解和生成所需的信息粒度(information granularity)不同,这种方法会导致性能下降,尤其是在多模态理解。 为了解决这个问题,将视觉编码解耦成独立的路径,同时仍然利用单个统一的 Transformer 架构进行处理。
2025-02-04 13:44:12
845
原创 [EAI-029] RoboVLMs,基于VLM构建VLA模型的消融研究
本文揭示了显著影响 VLA 性能的关键因素,并重点回答三个基本的设计选择:选择哪个主干网络,如何制定 VLA 架构,以及何时添加跨机器人本体的数据。结果表明更倾向于 VLA,并开发了一个新的 VLA 系列 RoboVLMs,它只需要很少的手动设计,并在三个模拟任务和现实世界实验中取得了新的最先进的性能。 通过 8+ 个 VLM 主干网络、4 个策略架构和超过 600 个不同的设计实验,为 VLAs 的未来设计提供了一个详细的指南。
2025-01-31 15:12:27
1025
原创 [EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型
本文提出了 DiVLA,它将自回归模型与扩散模型结合,用于学习视觉运动策略(visuomotor policy)。目标是 next token prediction,使模型能够有效地根据当前观测结果进行推理。随后,连接一个扩散模型来生成动作。为了通过 self-reasoning 增强策略学习,引入了推理注入模块,将推理句子直接集成到策略学习过程中。使用多个真实机器人进行了大量的实验,以验证DiVLA的有效性。
2025-01-30 23:54:25
1448
原创 [EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型
双臂操作由于协调两只机械臂的复杂性(导致多模态动作分布)以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出了用于双臂操作的扩散基础模型 Robotics Diffusion Transformer (RDT)。 RDT 构建在扩散模型的基础上,有效地表征多模态动作分布,并创新性地设计了可扩展的Transformer来处理异质的多模态输入,以学习非线性和高频的机器人数据。
2025-01-30 22:25:46
1486
原创 [EAI-026] DeepSeek-VL2 技术报告解读
本文介绍了大型专家混合(MoE)视觉语言模型系列 DeepSeek-VL2,在 DeepSeek-VL 基础上做了两个主要升级。视觉组件结合了 Dynamic Tiling 视觉编码策略,旨在处理具有不同纵横比的高分辨率图像。语言组件利用具有多头潜在注意力机制的DeepSeekMoE模型,该机制将键值缓存压缩成潜在向量,以实现高效推理和高吞吐量。在改进的视觉语言数据集上进行训练,在各种任务中展示了优越的能力,包括 VQA、OCR、文档/表格/图表理解和视觉定位(Visual grounding)等。
2025-01-28 20:33:26
2103
原创 [EAI-025] DeepSeek-V3 技术报告解读
DeepSeek-V3 是一个强大的专家混合 (MoE) 语言模型,有 6710 亿个参数,每个token激活 370 亿个参数。 为了实现高效的推理和低成本训练,采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并达到了与领先的闭源模型相当的性能。
2025-01-28 14:08:40
3199
原创 [EAI-024] DeepSeek-R1 技术报告解读
DeepSeek-R1-Zero 模型通过 RL 进行训练,无需监督微调 (SFT) 作为预备步骤,展现出非凡的推理能力。通过RL,DeepSeek-R1-Zero 自展现出许多强大而有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混杂。 为了解决这些问题并进一步提高推理性能,引入了 DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的性能可与 OpenAI-o1-1217 相媲美。
2025-01-27 22:19:25
5635
原创 [EAI-023] FAST,机器人动作专用的Tokenizer,提高VLA模型的能力和训练效率
当前基于简单逐维度、逐时间步长分箱方案的机器人动作离散标记化方法,在从高频机器人数据中学习灵巧技能时,通常表现不佳。 为了解决这一挑战,本文提出了一种基于离散余弦变换的基于压缩的机器人动作离散分词方案FAST,能够为高度灵巧和高频的任务训练自回归VLA,而标准离散化方法在此类任务中完全失效。
2025-01-27 16:02:11
1315
原创 [EAI-022] FuSe,在VLA模型基础上,融合触觉和语音等异构模态信息
FuSe 能够利用自然语言作为一种通用的跨模态基础(cross-modal grounding),在异构传感器模态上对视觉运动通用策略VLA模型进行微调。
2025-01-26 14:52:21
626
原创 [EAI-021] RLDG,通过蒸馏RL策略提高VLA的精细操作能力
这项工作提出了强化学习蒸馏通才 (Reinforcement Learning Distilled Generalists,RLDG) 方法,该方法利用强化学习生成高质量的训练数据,用于微调通才策略。通过对精密操作任务(如连接器插入和组装)进行广泛的真实世界实验,证明了使用 RL 生成的数据训练的通才策略始终优于使用人工演示训练的策略,成功率提高了 40%,同时更好地泛化到新任务。
2025-01-23 01:47:49
1005
原创 [EAI-020] Octo,融合扩散过程和两阶段训练的通用机器人模型
本文提出了 Octo,这是一个基于 Transformer 的大型策略,在 Open X-Embodiment 数据集的 800k 轨迹上进行了训练。 它能够以语言命令或目标图像为目标进行执行,并且可以在消费级 GPU 上仅用几个小时即可微调到新的感官输入和动作空间设置。 在 9 个机器人平台的实验中,证明了 Octo 可以有效地微调到新的观察和行动空间。
2025-01-23 00:29:27
1014
原创 [EAI-019] OpenVLA,开源版RT-2,基于VLM的离散token自回归VLA模型
基于互联网规模的视觉语言数据VLMs和多样化的机器人演示数据训练,构建VLA模型——鲁棒的、可泛化的视觉运动控制策略(Visuomotor Control Policies)。基于预训练模型构建的VLA可以实现物体位置、光照、干扰物体、新颖物体和任务指令的泛化。
2025-01-21 01:39:04
1545
原创 [EAI-018] π0,当前最好的VLA模型,融合了VLM和扩散模型的优势
提出了一种基于预训练视觉语言模型 (VLM) 的新型 flow matching 架构,以继承互联网规模的语义知识。然后,我们讨论如何在来自多个灵巧机器人平台(包括单臂机器人、双臂机器人和移动机械臂)的大型多样化数据集上训练此模型。我们根据模型通过直接提示执行任务的能力、遵循人类和高级 VLM 策略的语言指令的能力以及通过微调获取新技能的能力来评估我们的模型。结果涵盖了各种各样的任务,例如折叠衣物、清洁桌子和组装盒子。
2025-01-19 22:55:05
1107
原创 [EAI-017] Genie,基于视频生成模型的生成式交互环境
Genie 是第一个以无监督方式从无标签的互联网视频中训练出来的生成式交互环境。该模型可以通过文本,合成图像,照片甚至草图来生成无穷无尽的可动作控制的虚拟世界。在参数为 11B 时,Genie 可被视为一个基础世界模型。
2024-03-05 02:24:38
997
原创 [EAI-016] 将视频生成模型生成的视频作为真实世界决策的统一接口
视频数据捕捉到了难以用语言表达的物理世界的重要信息。本文研究了扩展视频生成功能以解决现实世界中的任务。视频可以作为一个统一的接口,吸收互联网知识并表现不同的任务。此外,视频生成如何像语言模型一样,通过上下文学习、规划和强化学习等技术充当规划器、Agent、计算引擎和环境模拟器。
2024-03-04 01:50:36
1120
原创 [EAI-015] UniSim,基于视频生成模型的真实世界模拟器
我们探讨了通过生成建模学习现实世界交互通用模拟器的可能性。我们首先提出了一个重要的观点:可用于学习现实世界模拟器的自然数据集通常在不同维度上都很丰富(例如,图像数据中的丰富物体,机器人数据中的密集采样动作以及导航数据中的各种运动)。
2024-03-03 22:03:08
1445
原创 [EAI-014] RoboGen,通过生成式仿真实现大规模端到端对齐的长周期机器人多模态数据合成
为机器人Agent提供了一个自我引导的建议-生成-学习循环:Agent 首先提出要开发的有趣任务和技能,然后通过用适当的空间配置填充相关物体和资产来生成相应的仿真环境。然后,agent将所提出的高级任务分解为子任务,选择最优学习方法(强化学习、运动规划或轨迹优化),生成所需的训练监督,然后学习策略以获得所提出的技能。
2024-02-26 06:00:00
1219
1
原创 [EAI-013] Ego4D,MetaAI 构建的大规模人类第一人称视角学习数据集
数据集 Ego4D:在规模(时长,相机佩戴者,标注数量,地理位置等),多样性(室内和室外,任务数量等)和真实感(真人佩戴相机)方面更上一层楼的第一视角的日常活动数据集,大多数是无脚本化(不指定相机佩戴者要执行什么活动)和in the wild的。“4D” 的含义是第一视角获取的 3D 空间信息 + 时间信息。5 个基准任务阐明研究课题:涵盖了第一视角感知的基本组成部分——索引过去的经验,分析当前的互动,预测未来的活动。
2024-02-25 18:41:16
1834
原创 [EAI-012] RoboVQA,基于视频理解VLM实现具身智能长周期任务推理
提出了一个包含多种任务,多种具身环境收集的机器人问答数据集,并探讨了在现有多模态数据集上训练出来的最先进的视觉语言模型能否在现实世界中高精度地执行落地任务。
2024-02-25 11:36:26
1379
原创 [EAI-011] AutoRT,基于大模型的真实环境大规模机器人数据自主采集系统
我们提出了 AutoRT 系统,该系统利用现有的基础模型,在完全看不见的场景中,以最少的人工监督,扩大可操作机器人的部署规模。AutoRT 利用 VLMs 进行场景理解和执行,并进一步利用 LLM 提出多样化的新指令,供机器人机群执行。
2024-02-14 20:43:38
1538
原创 [EAI-010] RT-Trajectory,通过轨迹草图提高实现机器人操作任务的泛化能力
提出了一种使用这种粗略轨迹草图的策略调节方法 RT-Trajectory,这是实用的,易于指定的,并且可以让策略有效地执行原本难以执行的新任务。
2024-02-14 20:38:20
1356
原创 [EAI-009] Eureka,使用GPT-4设计强化学习奖励函数,实现灵巧转笔操作
EUREKA 利用最先进的 LLM 对奖励代码进行进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下,EUREKA 生成的奖励函数优于人类设计的专家奖励。
2024-02-12 08:50:24
2118
原创 [EAI-008] 具身智能经典工作 RT-2,基于VLM的端到端离散token自回归VLA模型
研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制,以提高泛化能力并实现新兴语义推理能力。
2024-01-13 11:00:11
1231
原创 [EAI-007] 具身智能经典工作 RT-X,首个大规模具身数据集OXE训练的VLA模型
汇集了 21 家机构合作收集的 22 种不同机器人的数据集,展示了 527 种技能(160266 项任务)
2023-12-19 04:45:00
1538
2
原创 [EAI-005] 具身视觉语言规划(EVLP)数据集基准汇总
解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。
2023-11-19 15:03:45
3021
原创 [EAI-004] 具身视觉语言规划(EVLP)仿真环境汇总
解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。
2023-11-18 13:03:24
1463
原创 [EAI-003] 具身智能经典工作 RT-1,系统性地研究机器人策略模型的泛化能力
通用机器人模型成功的关键之一在于开放式的任务无关的训练,以及能够吸收所有不同机器人数据的大容量架构。本文提出了 Robotics Transformer 模型,其具有良好的可扩展模型特性。
2023-10-23 01:17:42
660
3
原创 [EAI-002] 涵盖仿真、研究方向的具身智能(Embodied AI)综述
具身智能领域从模拟器到研究的综述。提出的七大特点评估目前的九种具身智能模拟器,本文旨在了解这些模拟器在具身智能研究中的应用及其局限性。最后,本文概述了具身智能的三大研究任务:视觉探索,视觉导航和具身问答(QA),涵盖了最先进的方法、评估指标和数据集。最后,本文将根据对该领域的综述所获得的新见解,为选择任务模拟器提出建议,并为该领域的未来发展方向提出建议。
2023-10-21 13:14:05
1999
原创 [EAI 001] 具身智能经典工作 PaLM-E,基于图文VLM的具身VQA任务推理模型
提出了具身语言模型,将真实世界的连续的传感器模态直接纳入语言模型,从而建立词语与感知之间的联系。模型的输入是多模态句子,这些句子交错了视觉、连续状态估计和文本输入编码。
2023-10-15 21:23:35
1783
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人