kebijuelun-优快云博客

原创 Muon: An optimizer for hidden layers in neural networks

Muon 激发了人们对于优化器创新的热情——长久以来，Adam/AdamW 几乎是大多数任务的不二之选，而 Muon 证明了通过深入挖掘梯度结构特性，我们仍能找到显著优于现有方法的新途径。

2025-03-17 22:45:33 587 2

原创 Talking Head Review （数字人算法综述）

本文对当前最前沿的 3D 说话人脸生成模型进行了深入梳理，包括 **GeneFace**、**GeneFace++**、**Real3D-Portrait**、**MimicTalk**、**VASA-1**、**LivePortrait**、**MegaPortraits**、**EchoMimic**、**OmniHuman-1** 等。

2025-03-10 22:28:53 800

原创 Transformer Quality in Linear Time

2022 年谷歌发表的 transformer 结构优化论文，本文提出了两种创新方法——门控注意单元（GAU）和混合块注意力（Mixed Chunk Attention），共同构成FLASH模型。FLASH 在短序列和长序列任务中均能匹配 Transformer 的质量，同时显著提升训练速度，为高效长序列建模提供了新思路。

2025-03-07 17:09:03 824

原创 Qwen2.5-VL Technical Report

2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力，加入了目标定位等精细化感知能力，评测结果基本上能对齐或超过当前最优的 VLM 模型。

2025-02-21 19:17:02 1220

原创 Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

2025 年阶跃星辰开源的 step-audio 模型，130B + 3B 模型版本，3.3T 多模态数据训练。

2025-02-20 18:04:17 757

原创 Kimi k1.5: Scaling Reinforcement Learning with LLMs

2025 年 kimi 发表的 k1.5 模型技术报告，和 DeepSeek R1 同一天发布，虽然精度上和 R1 有微小差距，但是文章提出的 RL 路线也有很强的参考意义

2025-02-11 21:06:03 987

原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

2025 年 DeepSeek 发布的基于大规模强化学习（RL）训练的推理模型 DeepSeek-R1，引爆全球科技圈讨论学习。DeepSeek-R1 模型权重和实现方案完全公开，模型精度可以对齐或超过最优秀的闭源模型。

2025-02-10 23:08:10 1033

原创万字详解 DeepSeek-V3 Technical Report

2024 年中国 deepseek 发表的轰动全球的大模型论文。DeepSeek-V3 是目前开源 LLM 领域的新巅峰，在保持高性能的同时，训练成本远低于 GPT-4o。DeepSeek-V3 在数学、编程、逻辑推理和长文本处理方面表现极其出色，它采用了MoE 架构、长文本优化和高效训练方法。

2025-02-10 12:03:59 1227

原创 Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

WACV 2024 弗罗茨瓦夫大学的数字人工作，实际是 2023 年 1 月挂出来的，早期用 diffusion 做 talking head 的工作之一。

2024-11-20 18:46:48 1091

原创阿里数字人工作 Emote Portrait Alive (EMO)：基于 Diffusion 直接生成视频的数字人方案

2024 年 ECCV 阿里智能计算研究所的数字人工作，基于 diffusion 方法来直接的从音频到视频合成数字人，避免了中间的三维模型或面部 landmark 的需求，效果很好。

2024-11-19 21:11:38 1468

原创 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

2024 年微软发表的数字人工作 VASA-1，支持基于单人头像照片和语音音频输入，来实时生成数字人视频。支持在线生成高达 40 FPS 的 512×512 分辨率视频，目前为数不多能做到实时推理且效果很好的 talking face 工作。

2024-11-14 21:32:33 1241

原创 Movie Gen: A Cast of Media Foundation Models （Meta 92 页技术报告详解）

2024 Meta 发布的 30B 参数量的视频生成模型 Movie Gen 以及 13B 参数量的 Movie Gen Audio 视频配乐模型，支持生成高保真图像、视频和音频，同时也具备编辑和个性化视频的能力。Movie Gen 的技术报告是视频生成领域目前介绍技术细节最详细的文章。

2024-11-04 13:18:45 817

原创 RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation

2022 年旷视出品的实时视频帧插值工作。提出 RIFE 轻量级视频插帧模型，主要设计了一种基于中间流估计的视频插帧方法，另外设计了一种特权蒸馏算法来提升模型的性能和训练稳定性。

2024-10-06 18:02:19 1441 1

原创 W.A.L.T: Photorealistic Video Generation with Diffusion Models

2023 斯坦福大学和 google 联合出品的视频生成工作，提出了 Window Attention Latent Transformer (W.A.L.T)，一种基于Transformer的潜在视频扩散模型（LVDMs）方法。训练了由三个模型组成的级联，包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧的速度生成 512×896 分辨率的视频，并在 UCF-101 基准测试上报告了最先进的 FVD 得分。

2024-09-03 13:33:21 997

原创李沐讲座：大语言模型的实践经验和未来预测 | 上海交大

本文记录了李沐关于语言模型与职业生涯分享的精彩讲座，涵盖了大语言模型的核心要素、工程实践中的挑战，以及演讲者个人职业生涯中的心得体会。

2024-09-01 18:01:57 1442

原创 VEnhancer: Generative Space-Time Enhancement for Video Generation

2024 年港中文和上海人工智能实验室出品论文。介绍了 VEnhancer，支持视频的超分辨率和插帧。使用 VEnhancer，现有的开源最先进文本到视频方法，VideoCrafter-2，在视频生成基准测试——VBench 中达到了第一名

2024-08-30 18:30:32 974

原创 FlexAttention 详解：PyTorch 代码实现多种 Attention 变体

FlexAttention 提供了一个灵活的 API，允许使用几行惯用的 PyTorch 代码实现多种 Attention 变体

2024-08-16 13:31:35 2086

原创 Learning Multi-dimensional Human Preference for Text-to-Image Generation

2024 年快手提出的文生图评测方案，提出了多维度偏好评分（MPS），这是首个用于评估文本生成图像模型的多维度偏好评分模型。

2024-08-13 17:34:16 1249

原创无需训练的 Diffusion MoE 方案 (SegMoE): Segmind Mixture of Diffusion Experts

2024 年 Segmind 研发的全球首个用于 Stable Diffusion 的开源专家混合（Mixture of Experts，MoEs）框架。这是一种能够将多个稳定扩散模型动态组合在一起的框架，**无需训练**即可在短时间内创建更大的 MoE 模型。

2024-08-09 18:30:54 1473

原创 pytorch 自动微分以及自定义 torch.autograd.Function 教程

本文介绍 PyTorch 自动微分以及自定义 `torch.autograd.Function` 的方法。通过 `torch.autograd` 和自定义 `autograd.Function`，可以灵活地实现复杂的前向与反向传播逻辑。

2024-08-09 17:13:38 1039

原创 Scaling Diffusion Transformers to 16 Billion Parameters

2024 年昆仑万维发表的 DiT-MoE 工作。DiT-MoE 用稀疏的 MoE 层替代了 DiT 中一部分密集的前馈层，其中每个图像块的 token 都会被路由到部分专家，即 MLP 层。此外，我们的架构包含两个主要设计：共享部分专家以捕获通用知识，以及专家级平衡损失以减少不同路由专家之间的冗余。进一步将模型参数扩展到 165 亿，而只激活了 31 亿个参数，在 512×512 分辨率下达到了新的最先进 FID-50K 分数 1.80。

2024-08-06 00:35:42 1077

原创中国居民膳食指南书籍知识点汇总

本文以《中国居民膳食指南》书籍的内容作为基础，总结了**正常人群膳食**相关内容要点，希望能够帮助读者建立科学的膳食观念，形成健康的生活习惯。

2024-07-28 17:25:41 1105

原创 FIT: Far-reaching Interleaved Transformers

2023 年 google deepmind 提出的 FIT 网络架构，具有高效的自注意力和自适应计算，可以作为编码器、扩散解码器或自回归解码器使用。FIT 能有效降低计算量的同时保持模型的精度。值得注意的是，FIT展示了在千兆级数据（如6400×6400图像或160K tokens（经过补丁标记化后））上进行端到端训练的潜力，在16GB内存容量下，无需特定优化或模型并行化。

2024-07-24 15:39:13 973

原创 Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

2024 年 Snap Inc 提出的 Snap Video 方案。受 FIT 的启发提出了一种基于 transformer 的级联架构，相比于 Unet 有更好的可扩展性。同时针对视频生成任务优化了 EDM 中的 noise schedule 设计。根据研究参与者的反馈，Snap Video 在写实性方面与 Gen-2 相当，但显著优于 Pika。

2024-07-23 17:41:13 740

原创月之暗面科技有限公司（Moonshot AI）内推

加入月之暗面 (Moonshot AI)，你将有机会参与到前沿的人工智能技术研究与产品开发中。来和 kimi 一起登月吧！

2024-07-20 17:30:25 1892

原创 MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

2024 腾讯 ARC Lab 文章，提出了 MiraData。MiraData 是大规模、高质量的视频数据集，具有长视频（平均72.1秒）、高运动强度和详细的结构化字幕（平均318字）。同时引入了 MiraBench 用于更好评估视频生成中的时间一致性和运动强度。使用基于 DiT 的视频生成模型 MiraDiT 进行实验，验证相比于当前公开的数据集，使用 MiraData 训练的模型具有更大的运动幅度和运动一致性。

2024-07-18 18:24:06 1181

原创模型(卷积、fc、attention)计算量 MAC/FLOPs 的手动统计方法

理解神经网络中的 MAC（乘累加操作）和 FLOPs（浮点运算）对于优化网络性能和效率至关重要。通过手动计算这些指标，可以更深入地了解网络结构的计算复杂性和资源需求。这不仅能帮助设计高效的模型，还能在训练和推理阶段节省时间和资源。本文将通过实例演示如何计算**全连接层(fc)**、**卷积层(conv)** 以及 **自注意力模块(self-attention)** 的 FLOPs 和 MACs，并探讨其对资源效率、内存效率、能耗和模型优化的影响。

2024-07-09 16:24:32 2543 2

原创美好生活的 100 条建议

一些简洁明了的人生建议，易于理解，并且能够为日常生活中的各个方面提供实用的指导。

2024-07-07 17:36:17 1340

原创 ColossalAI Open-Sora 1.1 项目技术报告（视频生成）

Open-Sora 是潞晨科技 (ColossalAI) 团队实现的一个致力于高效生产高质量视频的开源项目，旨在让所有人都能够访问先进的视频生成技术。

2024-05-25 18:55:55 1304

原创 ColossalAI open-sora 1.0 项目技术报告（视频生成）

开源工作 open sora 1.0 做到的效果和 sora 还有显著差距，不过其实通过借助开源的 SD VAE 工作等基本把整个视频生成的框架走通了，包括 STDiT、高质量数据生成等各个环节。后续对各个模块进一步更新可以实现更好的效果

2024-05-25 09:47:52 901

原创大模型应用工具 LangChain 入门书籍： LangChain 简明讲义

《LangChain 简明讲义：从 0 到 1 构建 LLM 应用程序》从基础概念到实际操作，对大语言模型和 LangChain 进行了全面的介绍，以便读者深入了解模型的原理和 LangChain 的运作方式。

2024-04-14 22:02:40 769

原创【扩散模型核心思想讲解】李宏毅 2023 最新 Diffusion Model 原理讲解

本文为 Diffusion Model 课程的学习笔记，详细讲解了扩散模型（Diffusion Model）的基本原理、应用场景、以及与其他生成模型如 VAE 和 GAN 的对比。

2024-04-14 18:46:50 7003 1

原创 Sora 基础作品之 DiT：Scalable Diffusion Models with Transformer

2022 年 UC Berkeley 出品的论文，将 transformer 应用于 diffusion 上实现了当时最佳的生成效果。DiT 论文作者也是 OpenAI 项目领导者之一，该论文是 Sora 的基础工作之一。

2024-04-01 18:08:06 2192

原创 Pytorch CUDA Reflect Padding 算子实现详解

通过这篇博客，我们简单介绍了 CUDA 和反射填充的概念和应用，提供了实际的代码实现理解和对应资源的链接，希望能帮助读者更深入地理解并利用这些技术。

2024-03-20 16:35:10 1348

原创 OpenAI Triton 入门教程

OpenAI 研发的 Triton 是一个专门为深度学习和高性能计算任务设计的编程语言和编译器，它旨在简化并优化在GPU上执行的复杂操作的开发。Triton 的目标是提供一个开源环境，以比 CUDA 更高的生产力编写快速代码。

2024-02-28 23:59:41 11659 1

原创 FSQ: FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE

2023 年 google 发表的文章，可以用于文本、视频生成领域中。提出一种称为有限标量量化（FSQ）的简单方案来替换 VQ-VAEs 中的向量量化（VQ）。解决传统 VQ 中的两个主要问题： - 需要避免 codebook collapse 的辅助损失 - 大 codebook size 情况下码本利用率低

2024-02-22 19:04:22 2658 2

原创 OpenAI Sora 技术报告: Video generation models as world simulators

2024 OpenAI 的视频生成工作 Sora。探索在视频数据上进行大规模生成模型的训练。具体来说，作者团队在多种持续时间(duration)、分辨率 (resolution) 和长宽比 (aspect ratio) 的视频和图像上训练文本条件扩散模型。利用了一个在视频和图像潜在编码的时空补丁 (spacetime patches) 上运行的 transformer 架构。所提出的 Sora 能够生成一分钟高保真度的视频。实验结果表明，扩展视频生成模型是建立通用物理世界模拟器的有前途的途径。

2024-02-21 12:31:54 1091

原创 (MAGVIT-v2) Language Model Beats Diffusion: Tokenizer is key to visual generation

2023 年 google 和 CMU 的文章，介绍了视频 tokenizer MAGVIT-v2，旨在使用共同的词汇表为视频和图像生成简洁而富有表现力的 token。如论文标题提到的，该研究首次在 ImageNet 数据集上展示了基于 LLMs 的生成效果超过扩散模型

2024-01-21 19:27:41 2573 2

原创 PyTorch 节省显存技巧：Activation Checkpointing

本文介绍了 PyTorch 中的激活检查点技术，旨在减小内存占用，同时提供更多计算资源。其中详细讨论了 PyTorch 中的自动求导机制，以及两种激活检查点的实现方式：可重新进入（reentrant）和不可重新进入（non-reentrant）。特别关注了非可重新进入版本的新特性，包括嵌套检查点、在检查点内调用 .grad()/.backward() 的支持、非确定性检查和调试性的改进、在指定 retain_graph 时的内存节省等。同时，还介绍了可重新进入变体的实现方式，并提供了简单的用法示例。

2024-01-01 22:46:13 3485

原创 MAGVIT: Masked Generative Video Transformer

2023 年 CMU、google 等发表 CVPR2023 Highlight 文章，提出了视频生成方法 MAsked Generative VIdeo Transformer (MAGVIT)，基于两阶段方式训练，在多个视频生成测试集上取得了最佳效果。同时推理速度会显著优于同时期的 diffusion 方法和自回归方法。

2023-12-25 17:55:02 1586

空空如也

空空如也