- 博客(26)
- 收藏
- 关注
原创 yutransformer博主介绍
yutransformer是一位知名AI技术博主,在知乎和优快云分享NLP、大模型等技术文章。他曾在百度、平安、小鹏汽车担任算法研究员和AI专家,从事文本审核、金融AI、智能座舱等领域的研发工作。其技术分享动机包括:对技术的热爱、实战经验传递、学习记录、促进技术交流以及读者正向反馈的激励。他希望通过知识传播帮助更多人解决问题,推动技术社区发展。
2025-08-26 10:43:24
393
原创 DeepSeek-R1技术报告:基于强化学习激励大语言模型的推理能力(全文翻译版)
本文介绍了DeepSeek团队开发的推理模型DeepSeek-R1系列。DeepSeek-R1-Zero通过大规模强化学习直接训练基础模型,无需监督微调,在AIME2024基准上从15.6%提升至71.0%准确率,多数投票达86.7%。为解决可读性和语言混合问题,DeepSeek-R1采用多阶段训练和冷启动数据,性能媲美OpenAI-o1-1217。研究还展示了从DeepSeek-R1蒸馏到小型模型的有效性,如7B模型超越QwQ-32B-Preview。团队开源了DeepSeek-R1系列及6个蒸馏模型
2025-08-19 09:07:37
829
原创 Kimi的MoBA:面向长文本大模型的混合块注意力机制
MoBA是一种受专家混合(MoE)和块稀疏注意力(Block Sparse Attention)启发的注意力架构。在传统注意力中,每个 query 都会和完整的上下文(KV)进行计算,MoBA 使每个 query 能够有选择地专注于一部分(KV),保持性能的同时降低了计算成本。回顾全注意力:MoBA使每个 query 只注意到长度为 N 的完整 KV 的一个子集:MoBA的关键创新在于块划分和选择策略。我们将长度为 N 的完整上下文划分为 n 个块,并用 B 表示块大小,用 表示第 i 个块。
2025-08-19 09:05:24
534
原创 拒绝采样微调方法
拒绝采样微调(Rejection Sampling Fine-Tuning, RFT)是一种用于提升大模型推理能力的微调技术。其核心思想是通过生成和筛选高质量的推理路径,构建增强的微调数据集,从而提升模型的性能。以下是拒绝采样微调的主要流程和特点:(1)生成推理路径使用多个小模型(如LLaMA1/2-7B/13B)生成多条推理路径。这些路径经过质量筛选(保留答案正确的路径)和多样性控制(选择具有不同计算过程的路径),以增加模型的泛化能力。(2)构建微调数据集。
2025-08-19 09:04:26
505
原创 【具身算法】具身人工智能主流VLA方案介绍
基于经典Transformer结构的方案,如ALOHA(ACT)系列、RT-1HPT等,利用Transformer的序列建模能力,将强化学习轨迹建模为状态-动作-奖励序列,提升复杂环境下的决策能力;基于预训练LLM/VLM的方案,如RT-2OpenVLA等,将VLA任务视为序列生成问题,借助预训练模型处理多模态信息并生成动作,增强泛化性和指令理解能力;基于扩散模型的方案,如Diffusion Policy、RDT-1B等,通过去噪扩散概率模型生成动作,适用于高维动作空间和复杂动作分布;
2025-08-19 09:03:43
845
原创 【具身算法】ALOHA--ACT算法研究
在我们进行模仿学习研究中发现,模仿学习中存在大量高精度操作,由于Agent未见过相应的策略,策略中的错误会随着时间的推移而累积。为了解决这个问题,作者提出ACT算法。该算法通过将一系列动作划分为块,来整体进行预测,减轻单步策略预测错误带来的严重的影响。通俗的讲就是策略预测未来k个时间步长的目标关节位置,而不是一次只预测异步,这就将整个任务的有效范围减少了k倍,从而减轻了累积误差。为了进一步提高策略的平滑度,作者还提出了时间集成,它更频繁地查询策略并在重叠的动作块之间取平均值,保证整体动作的连贯性。
2025-08-19 09:03:02
565
原创 【具身算法】VLA算法-Diffusion Policy
《扩散策略:多模态机器人控制的新方法》摘要 本文提出了一种基于扩散模型的机器人控制策略(DiffusionPolicy),用于解决视觉运动控制中的多模态行为、高维动作空间和训练稳定性问题。该方法利用去噪扩散概率模型(DDPM)生成动作序列,通过迭代优化处理复杂动作分布,显著提升了性能。实验表明,在15项机器人操作任务中,扩散策略平均性能提升46.9%,有效解决了传统显式/隐式策略的局限性。其核心优势在于:1)优雅建模多模态动作分布;2)适应高维动作空间;3)训练过程稳定。未来工作将探索与强化学习的结合及计算
2025-08-19 09:02:18
1056
原创 控制LLM生成--SGCD
本文提出草图引导约束解码(SGCD)方法,用于解决黑盒大模型生成结构化内容时的格式约束问题。该方法采用两阶段处理:首先由黑盒大模型生成初步草图,再由本地辅助模型进行约束细化。实验表明,SGCD在信息提取和句法分析任务中显著提升性能(精确度最高提升32.1%)。虽然该方法存在额外开销、依赖模型指令跟随能力等局限,但为不修改模型参数实现约束生成提供了新思路,尤其适用于需要严格格式保证的应用场景。
2025-08-19 09:00:56
398
原创 Netron--神经网络模型可视化工具
是一款流行的开源神经网络可视化工具,支持多种深度学习框架的模型格式(如等),可直观展示模型结构、层参数及数据流。
2025-08-19 09:00:04
674
原创 【具身智能】-- HPT模型
当前我们在训练通用的机器人模型的时候,面临的主要问题在于数据的异构性。现在市面上各家机器人都会针对各自的机器人采集数据进行模型的训练,但是不同的数据采集实施形式和机器人平台的差异性导致数据很难具有通用性。这篇论文主要从通用性出发,研究如何实现将不同的潜在空间对齐,并研究策略学习中的扩展行为。将可扩展的置于策略中间,无需从头开始训练!HPT 模型Stem(输入)、Trunk(骨干)、Head(输出);其中 Trunk 包含了 96% 的参数,预训练之后就固定了;
2025-08-19 08:59:30
913
原创 【具身智能】--CogACT
由清华大学和微软亚洲研究院联合研发的CogACT模型,将diffusion action transformer引入到具身智能当中来,可以更好的展现action 连续、时序、精确的特性。在此基础上,在 inference 的时候还设计了(AAE)方法,进一步提升性能。作者通过大量的实验以及消融研究,CogACT模型不仅展现较好的任务成功率(相比于7B的OpenVLA,在仿真环境任务成功率超出35%,在实际机器人运行环境中任务成功率超出55%),同时还具有较好的环境适应和泛化能力。
2025-08-19 08:58:10
915
原创 LLMs下transformer一些改造方法
Sinusoidal位置编码是算出来的,不是学出来的,因此理论上有无限的序列长度外推性,但是最大的问题是当embedding的维度较小时,不同位置的词的。上面我们简绍了绝对位置编码和相对位置编码,但是自然语言中相邻的词才会产生强的位置关系,远的词的位置关系其实相对来说并不太重要,因此,本篇文章也是相对位置编码,延续这相对编码的思路,position embedding并没有加在work embedding上,而是加在了Q*K^T上面。这样的函数式相对位置编码,又会比训练式相对位置编码的外推效果好些。
2025-08-18 11:11:58
289
原创 huggingface被拦截后还有哪些点渠道下载
(3)可以用kaggle做跳板,先下到kaggle里面,再从kaggle里下载下来,不限速。,阿里创建的一个ai社区,可以通过该平台进行模型参数下载;, huggingface的镜像网站,本站域名。
2025-08-18 11:10:36
465
原创 SD模型微调之LoRA
知乎名为AItransformer,8年AI老兵,从事NLP、大语言模型、多模态大模型等相关算法的研发和落地,拥有丰富的算法经验,先后在百度、平安、小鹏汽车从事算法落地的工作,借助平台将个人的一些算法研究和经验分享出来,一起推动技术的进步!
2025-08-18 11:06:03
633
原创 UltraRAG介绍
UltraRAG 框架由清华大学THUNLP联合东北大学NEUIR面壁智能团队及9#AISoft团队共同提出,基于敏捷化部署与模块化构造,引入了自动化的“数据构建-模型微调-推理评测”知识适配技术体系,提供了一站式、科研与开发双重友好的 RAG 系统解决方案。零编程经验用户亦可上手操作全链路搭建和优化过程,包括多模态RAG方案VisRAG;以自研KBAlign、RAG-DDR等方法为核心,一键式系统化数据构建 + 检索、生成模型多样微调策略支持下的性能优化;以自研RAGEval。
2025-08-18 11:05:00
435
原创 DeepSeek-R1-GRPO理解
相对优势:让模型生成高奖励的输出。策略比率和裁剪:控制新策略的变化幅度,防止偏离旧策略太远。KL 散度:进一步确保新策略与旧策略的相似性。个人介绍:技术博客名为YUTransformer,8年AI老兵,从事NLP、大语言模型、多模态大模型等相关算法的研发和落地,拥有丰富的算法经验,先后在百度、平安、小鹏汽车从事算法落地的工作,借助平台将个人的一些算法研究和经验分享出来,一起推动技术的进步!加我vx(yx116169)入vlm/vla大模型群和llm群。
2025-08-18 11:03:21
919
原创 【具身智能】DeeR-VLA:多模态大型语言模型的动态推理,助力机器人高效执行
随着多模态大模型的发展,模型参数越来越大,而在机器人硬件部署上,对硬件的计算能力和内存提出了更高的要求,这也导致这些多模态大模型很难在资源有限的机器人平台上较好的运行。本文创新性的提出了动态早期退出机制DeeR,可以动态控制参与任务的模型大小,减少资源的浪费。本文主要研究成果:(1)提出了动态早期退出机制DeeR,该框架基于动态神经网络的思想,能够自动调整MLLM的大小,根据机器人面临的实际任务动态的激活模型所需要的层面,减少不必要的计算;(2)较为灵活的计算成本控制。
2025-08-18 11:01:25
767
原创 【具身智能】COT-VLA:视觉语言模型的视觉链思想推理
视觉-语言-动作模型(VLA) 已展现出利用预训练的视觉-语言模型和各种机器人演示来学习泛化传感器运动控制的潜力。虽然这种范式有效地利用了来自机器人和非机器人来源的大规模数据,但目前的 VLA 主要关注直接的输入-输出映射,缺乏对复杂操作任务至关重要的中间推理步骤。因此,现有的 VLA 缺乏时间规划或推理能力。在本文中介绍了一种方法,该方法通过在生成实现这些目标的短动作序列之前,自回归地预测未来的图像帧作为视觉目标,将显式的视觉链式思维(CoT) 推理融入视觉-语言-动作模型 (VLA)。
2025-08-18 10:53:46
555
原创 Octo:一个开源通用机器人策略
机器人学习的常用方法是在为特定机器人和任务收集的数据集上训练策略。这种从头开始的学习方法需要为每个任务付出大量的数 据收集工作,并且由此产生的策略通常只表现出狭隘的泛化能力。原则上,从其他机器人和任务中收集的经验提供了一种可能的解决方案,它使模型能够接触到各种各样的机器人控制问题,这可能会提高下游任务的泛化能力和性能。然而,即使通用模型在自然语言[68, 88]和计算机视觉[76, 44]领域变得普遍,构建能够控制许多机器人执行许多任务的类似“通用机器人模型”仍然具有挑战性。
2025-08-18 10:53:03
1072
原创 Qwen3技术报告
Qwen3是一系列大规模语言模型(LLMs),旨在提升性能、效率和多语言能力。Qwen3系列包含密集(Dense)模型和混合专家(MoE)模型,参数规模覆盖0.6B至235B。思考模式(用于复杂多步推理)和非思考模式(基于上下文的快速响应)。这一设计无需切换模型(比如对话优化模型 GPT-4o 和专用推理模型 QwQ-32B),而是在同一个模型内根据用户查询或对话模板进行动态模式切换。同时,Qwen3引入思考预算机制,允许用户在推理过程中自适应分配计算资源,从而根据任务复杂度平衡延迟与性能。
2025-08-18 10:52:01
1922
原创 大语言模型推测解码技术
(Speculative Decoding)是一种用于加速大型语言模型(LLM)推理的前沿技术,其核心思想是通过并行生成和验证机制突破传统的串行瓶颈。
2025-08-18 10:50:57
542
原创 【具身智能】Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents
作者引入了 Agentic Robot,这是一个代理框架,它将长视域操作重新表述为一个封闭的感知-推理-执行-验证循环,其灵感来自生物认知和多智能体 LLM 系统。借鉴管理高效人类工作流程的 SOP 的理念,用于构建整个操作过程中的组件交互。SAP 为信息交换、进度监控和错误恢复建立了明确的协议,从而能够稳健地执行复杂的操作任务。我们的架构集成了三个专门的组件:(1) 基于 LRM 的规划器,将高级指令分解为结构化子目标;(2) 基于 VLA 的执行器,生成来自子目标和视觉输入的连续控制动作;
2025-08-18 10:49:52
715
原创 【具身智能】TrackVLA: Embodied Visual Tracking in the Wild
为了实现目标识别和轨迹规划的协同作用,一个多功能模型必须同时掌握识别和跟踪能力。在本研究中,我们提出了 TrackVLA 模型,这是一个视觉-语言-动作模型,它具有一个统一的框架,将目标识别和轨迹规划融为一体。具体而言,这两个任务都使用相同的 token 编码和 LLM 转发机制来预测下一个 token,而解码则依赖于具体任务。对于识别任务,Track VLA 使用语言建模头来解码文本响应。对于规划任务,Track VLA 利用基于锚点的扩散头来生成航点轨迹。
2025-08-18 10:48:01
1037
原创 【具身智能】Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning
对于系统 2,它以较低的频率运行,将二维观测和语言指令处理成多模态潜在表征,以指导系统 1 的执行。值得注意的是,由于三维几何信息对于精确操控至关重要 [28, 29],我们采用一种快速三维嵌入策略,将点云 [30] 进行标记,并通过共享视觉编码器进行处理以提取空间特征,这些特征直接为系统 1 的几何感知交互提供条件。快中慢 (FiS) 模型这是一种 VLA 基础模型,它将系统 1 的快速执行能力集成到预训练的 VLM 中,同时保留了系统 2 固有的推理能力。模型处理高级推理,以及单独的。
2025-08-18 10:46:15
354
原创 OpenAI 开源多模态智能体(AI Agent)Swarm详解
Swarm 是由 OpenAI 开源的多代理协作框架,专注于轻量级、可控的代理(Agent)协调与任务切换。其设计目标是探索多代理系统的人体工学接口,适用于教育、实验及复杂工作流的快速原型开发,而非生产环境。核心特性轻量级:代码仅约 500 行,依赖 OpenAI 的 Chat Completions API,调用间无状态存储。Handoffs 机制:允许代理通过函数调用动态移交对话任务,实现多代理协作。完全透明性:支持调试日志打印上下文变量、工具调用步骤,便于开发者跟踪执行流程。
2025-08-18 10:44:29
2132
原创 vLLM参数详细说明
这些额外参数可以在不增加硬件投入的情况下,进一步提升 15-25%的性能,特别是在高并发场景下效果更为明显。技术博客名为AItransformer,8年AI老兵,从事NLP、大语言模型、多模态大模型等相关算法的研发和落地,拥有丰富的算法经验,先后在百度、平安、小鹏汽车从事算法落地的工作,借助平台将个人的一些算法研究和经验分享出来,一起推动技术的进步!
2025-08-18 10:40:31
3612
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅