kebijuelun-优快云博客

原创 Qwen3 技术报告详解

2025 年通义实验室发布的最新模型 Qwen3，首次在 Qwen 系列中使用了 MoE 架构，并且在一个模型中同时支持了推理和非推理模式，同时使用了大量的合成数据训练，达到了开源模型的 SOTA 榜单效果。

2025-05-28 20:30:00 600

原创 GATED DELTA NETWORKS : IMPROVING MAMBA 2 WITH DELTA RULE

2024 年 Nvidia + MIT 提出的线性Transformer 方法 Gated DeltaNet，融合了自适应内存控制的门控机制（gating）和用于精确内存修改的delta更新规则（delta update rule），在多个基准测试中始终超越了现有的模型，如 Mamba2 和 DeltaNet。

2025-05-28 19:46:30 353

本文探讨了统一多模态模型中图像理解和生成的关键设计问题。研究基于自回归与扩散混合架构，重点分析了三个核心问题：(1)图像表示方面，比较了VAE和CLIP-Diffusion两种编码器-解码器范式的优劣；(2)训练目标上，MSE损失能确定性地生成图像，而流匹配损失则支持多样化的图像生成；(3)实验表明，CLIP+流匹配组合在提示对齐指标上表现最佳，VAE+流匹配则在视觉美学质量上最优。研究为构建更强大的多模态AGI系统提供了重要的设计指导。

2025-05-24 23:50:40 630

原创 RNope：结合 RoPE 和 NoPE 的长文本建模架构

2025 年 Cohere 提出的一种高效且强大的长上下文建模架构——RNope-SWA。通过系统分析注意力模式、位置编码机制与训练策略，该架构不仅在长上下文任务上取得了当前最优的表现，还在短上下文任务和训练/推理效率方面实现了良好平衡。

2025-05-16 18:18:05 1150

原创 KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

2024 年 UC Berkeley 提出的 KV cache 量化方法 KVQuant，对近期 LLM 中的 KV 缓存激活值进行了深入分析，揭示了可用于实现超低精度量化且损失极小的方式，相关代码也已开源。

2025-05-16 16:19:02 919

原创 π0: A Vision-Language-Action Flow Model for General Robot Control

2024 年 Physical Intelligence 发布的 VLA 模型 π0，基于 transformer + 流匹配（flow matching）架构，当前开源领域最强的 VLA 模型之一。

2025-05-15 23:38:41 362

原创 KV cache 缓存与量化：加速大型语言模型推理的关键技术

在大型语言模型（LLM）的推理过程中，KV 缓存（Key-Value Cache）是一项至关重要的优化技术。自回归生成（如逐 token 生成文本）的特性决定了模型需要反复利用历史token的注意力计算结果，而 KV 缓存通过存储这些中间值（即键值对 K/V），避免了重复计算，大幅提升了推理效率。由于解码器是因果的（即，一个 token 的注意力仅取决于其前面的 token），因此在每个生成步骤中，我们都在重新计算相同的先前 token 的注意力，而实际上我们只是想计算新 token 的注意力。

2025-05-13 20:03:55 1401

原创 KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

2024 年莱斯大学提出的无需微调的 2bit KV 缓存量化算法 KIVI，可以使 Llama、Falcon 和 Mistral 模型在使用 2.6 倍更少的峰值内存（包括模型权重）的情况下保持几乎相同的质量。

2025-05-13 19:42:09 644

原创多模态大模型中的视觉分词器（Tokenizer）前沿研究介绍

本文梳理了 8 篇视觉分词器（Tokenizer）前沿工作，涵盖视觉分词器（Tokenizer）中的潜在空间优化、动态长度分词、全模态对齐等方向。从 MAETok 揭示潜在空间结构对扩散模型的关键作用，到 FlexTok 实现 1-token 极端压缩仍保持语义完整性，再到 Ola 构建支持"看听说写"的全模态模型

2025-05-10 18:17:50 1000

原创 Qwen3: 阿里通义千问最新发布模型的介绍与测试

2025 年阿里通义发布的最新版本模型 Qwen3，代码数学等榜单的精度很高，模型系列很全，包含 MoE 与 Dense 模型，同时支持推理和非推理模式。

2025-04-29 18:37:03 951

原创 LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

2024 年 Meta FAIR 提出了 LayerSkip，这是一种端到端的解决方案，用于加速大语言模型（LLMs）的推理过程

2025-04-29 18:02:10 870

原创 Octo: An Open-Source Generalist Robot Policy

2024 年 UC Berkeley、google deepmind 等出品的机器人 VLA 工作，推出了 Octo，这是一个基于 Transformer + diffusion 架构的策略，提供了 27M 和 93M 两个参数量的模型版本，模型完全开源。

2025-04-29 12:05:55 687

原创 OpenVLA-OFT

2025 年斯坦福提出的 OpenVLA 工作的续作 OpenVLA-OFT，优化 VLA 能够有效适应新的机器人平台和任务，优化的技术主要有并行解码、动作块处理、连续动作、L1 回归和（可选的）FiLM 语言调节

2025-04-28 17:34:26 614

原创 OpenVLA：大语言模型用于机器人操控的经典开源作品

2024 年斯坦福大学提出的 OpenVLA，基于大语言模型实现机器人操控，代码完全开源。

2025-04-27 18:37:12 1280

原创 MAGI-1: Autoregressive Video Generation at Scale

2025 年 sand AI 发布的视频生成工作，提出了 MAGI-1：一种基于扩散的大规模生成模型，**通过自回归地生成按时间分块的视频，每个块包含一段固定长度的连续帧**

2025-04-27 17:28:16 1024

原创 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

2024 年 google deepmind 出品的文章，研究了在静态计算预算下的语言建模问题，提出了 Mixture-of-Depths（MoD），强调每个 token 可以在 Transformer 结构中经历不同数量的层，是一种 dynamic model 的设计。

2025-04-25 18:12:13 920

原创 HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

2025 年字节 SeedFoundation-Model 发表的论文，提出了 HybridNorm，一种简单却有效的混合归一化策略，整合了 Pre-Norm 和 Post-Norm 方法的优点

2025-04-17 17:53:48 555

原创 MIX-LN: UNLEASHING THE POWER OF DEEP LAYERS BY COMBINING PRE-LN AND POST-LN

2024 年大连理工发表的文章，提出了一种新型的归一化技术——Mix-LN，它结合了 Pre-LN 和 Post-LN 的优点，并将它们应用于同一个模型中。**Mix-LN 将 Post-LN 应用于浅层，将 Pre-LN 应用于深层**，从而确保整个网络的梯度更加均匀。

2025-04-17 16:08:38 557

原创 GPT-4.1 提示词使用指南

**GPT-4.1 比其前代模型 GPT-4o 更倾向于严格跟随指令**，而不是像 GPT-4o 那样更自由地推断用户和系统提示的意图。这也意味着，**GPT-4.1 对明确指定的提示具有很高的可引导性和响应性**，如果模型的行为与用户的预期不同，一句简洁而明确的说明用户的期望行为几乎总是足够让模型回到正确的轨道。

2025-04-16 17:04:28 1299

原创 Meta 最新发布的 Llama 4：多模态开源大模型全面解析

2025 年 4 月 5 日，Meta AI 正式发布了第四代大型语言模型 Llama 4。引入了 Mixture-of-Experts (MoE，专家混合) 架构，同时原生支持多模态输入，最小的 Llama 4 Scout 模型支持 10m 的长文本输入。

2025-04-07 20:46:14 942

原创 Muon: An optimizer for hidden layers in neural networks

Muon 激发了人们对于优化器创新的热情——长久以来，Adam/AdamW 几乎是大多数任务的不二之选，而 Muon 证明了通过深入挖掘梯度结构特性，我们仍能找到显著优于现有方法的新途径。

2025-03-17 22:45:33 719 2

原创 Talking Head Review （数字人算法综述）

本文对当前最前沿的 3D 说话人脸生成模型进行了深入梳理，包括 **GeneFace**、**GeneFace++**、**Real3D-Portrait**、**MimicTalk**、**VASA-1**、**LivePortrait**、**MegaPortraits**、**EchoMimic**、**OmniHuman-1** 等。

2025-03-10 22:28:53 1180

原创 Transformer Quality in Linear Time

2022 年谷歌发表的 transformer 结构优化论文，本文提出了两种创新方法——门控注意单元（GAU）和混合块注意力（Mixed Chunk Attention），共同构成FLASH模型。FLASH 在短序列和长序列任务中均能匹配 Transformer 的质量，同时显著提升训练速度，为高效长序列建模提供了新思路。

2025-03-07 17:09:03 865

原创 Qwen2.5-VL Technical Report

2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力，加入了目标定位等精细化感知能力，评测结果基本上能对齐或超过当前最优的 VLM 模型。

2025-02-21 19:17:02 1398

原创 Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

2025 年阶跃星辰开源的 step-audio 模型，130B + 3B 模型版本，3.3T 多模态数据训练。

2025-02-20 18:04:17 805

原创 Kimi k1.5: Scaling Reinforcement Learning with LLMs

2025 年 kimi 发表的 k1.5 模型技术报告，和 DeepSeek R1 同一天发布，虽然精度上和 R1 有微小差距，但是文章提出的 RL 路线也有很强的参考意义

2025-02-11 21:06:03 1073

原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

2025 年 DeepSeek 发布的基于大规模强化学习（RL）训练的推理模型 DeepSeek-R1，引爆全球科技圈讨论学习。DeepSeek-R1 模型权重和实现方案完全公开，模型精度可以对齐或超过最优秀的闭源模型。

2025-02-10 23:08:10 1149

原创万字详解 DeepSeek-V3 Technical Report

2024 年中国 deepseek 发表的轰动全球的大模型论文。DeepSeek-V3 是目前开源 LLM 领域的新巅峰，在保持高性能的同时，训练成本远低于 GPT-4o。DeepSeek-V3 在数学、编程、逻辑推理和长文本处理方面表现极其出色，它采用了MoE 架构、长文本优化和高效训练方法。

2025-02-10 12:03:59 1535

原创 Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

WACV 2024 弗罗茨瓦夫大学的数字人工作，实际是 2023 年 1 月挂出来的，早期用 diffusion 做 talking head 的工作之一。

2024-11-20 18:46:48 1121

原创阿里数字人工作 Emote Portrait Alive (EMO)：基于 Diffusion 直接生成视频的数字人方案

2024 年 ECCV 阿里智能计算研究所的数字人工作，基于 diffusion 方法来直接的从音频到视频合成数字人，避免了中间的三维模型或面部 landmark 的需求，效果很好。

2024-11-19 21:11:38 1610

原创 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

2024 年微软发表的数字人工作 VASA-1，支持基于单人头像照片和语音音频输入，来实时生成数字人视频。支持在线生成高达 40 FPS 的 512×512 分辨率视频，目前为数不多能做到实时推理且效果很好的 talking face 工作。

2024-11-14 21:32:33 1280

原创 Movie Gen: A Cast of Media Foundation Models （Meta 92 页技术报告详解）

2024 Meta 发布的 30B 参数量的视频生成模型 Movie Gen 以及 13B 参数量的 Movie Gen Audio 视频配乐模型，支持生成高保真图像、视频和音频，同时也具备编辑和个性化视频的能力。Movie Gen 的技术报告是视频生成领域目前介绍技术细节最详细的文章。

2024-11-04 13:18:45 897

原创 RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation

2022 年旷视出品的实时视频帧插值工作。提出 RIFE 轻量级视频插帧模型，主要设计了一种基于中间流估计的视频插帧方法，另外设计了一种特权蒸馏算法来提升模型的性能和训练稳定性。

2024-10-06 18:02:19 1565 1

原创 W.A.L.T: Photorealistic Video Generation with Diffusion Models

2023 斯坦福大学和 google 联合出品的视频生成工作，提出了 Window Attention Latent Transformer (W.A.L.T)，一种基于Transformer的潜在视频扩散模型（LVDMs）方法。训练了由三个模型组成的级联，包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧的速度生成 512×896 分辨率的视频，并在 UCF-101 基准测试上报告了最先进的 FVD 得分。

2024-09-03 13:33:21 1033