- 博客(151)
- 收藏
- 关注
原创 Muon: An optimizer for hidden layers in neural networks
Muon 激发了人们对于优化器创新的热情——长久以来,Adam/AdamW 几乎是大多数任务的不二之选,而 Muon 证明了通过深入挖掘梯度结构特性,我们仍能找到显著优于现有方法的新途径。
2025-03-17 22:45:33
587
2
原创 Talking Head Review (数字人算法综述)
本文对当前最前沿的 3D 说话人脸生成模型进行了深入梳理,包括 **GeneFace**、**GeneFace++**、**Real3D-Portrait**、**MimicTalk**、**VASA-1**、**LivePortrait**、**MegaPortraits**、**EchoMimic**、**OmniHuman-1** 等。
2025-03-10 22:28:53
800
原创 Transformer Quality in Linear Time
2022 年谷歌发表的 transformer 结构优化论文,本文提出了两种创新方法——门控注意单元(GAU)和混合块注意力(Mixed Chunk Attention),共同构成FLASH模型。FLASH 在短序列和长序列任务中均能匹配 Transformer 的质量,同时显著提升训练速度,为高效长序列建模提供了新思路。
2025-03-07 17:09:03
824
原创 Qwen2.5-VL Technical Report
2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力,加入了目标定位等精细化感知能力,评测结果基本上能对齐或超过当前最优的 VLM 模型。
2025-02-21 19:17:02
1220
原创 Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction
2025 年阶跃星辰开源的 step-audio 模型,130B + 3B 模型版本,3.3T 多模态数据训练。
2025-02-20 18:04:17
757
原创 Kimi k1.5: Scaling Reinforcement Learning with LLMs
2025 年 kimi 发表的 k1.5 模型技术报告,和 DeepSeek R1 同一天发布,虽然精度上和 R1 有微小差距,但是文章提出的 RL 路线也有很强的参考意义
2025-02-11 21:06:03
987
原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025 年 DeepSeek 发布的基于大规模强化学习(RL)训练的推理模型 DeepSeek-R1,引爆全球科技圈讨论学习。DeepSeek-R1 模型权重和实现方案完全公开,模型精度可以对齐或超过最优秀的闭源模型。
2025-02-10 23:08:10
1033
原创 万字详解 DeepSeek-V3 Technical Report
2024 年中国 deepseek 发表的轰动全球的大模型论文。DeepSeek-V3 是目前开源 LLM 领域的新巅峰,在保持高性能的同时,训练成本远低于 GPT-4o。DeepSeek-V3 在数学、编程、逻辑推理和长文本处理方面表现极其出色,它采用了MoE 架构、长文本优化和高效训练方法。
2025-02-10 12:03:59
1227
原创 Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation
WACV 2024 弗罗茨瓦夫大学的数字人工作,实际是 2023 年 1 月挂出来的,早期用 diffusion 做 talking head 的工作之一。
2024-11-20 18:46:48
1091
原创 阿里数字人工作 Emote Portrait Alive (EMO):基于 Diffusion 直接生成视频的数字人方案
2024 年 ECCV 阿里智能计算研究所的数字人工作,基于 diffusion 方法来直接的从音频到视频合成数字人,避免了中间的三维模型或面部 landmark 的需求,效果很好。
2024-11-19 21:11:38
1468
原创 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
2024 年微软发表的数字人工作 VASA-1,支持基于单人头像照片和语音音频输入,来实时生成数字人视频。支持在线生成高达 40 FPS 的 512×512 分辨率视频,目前为数不多能做到实时推理且效果很好的 talking face 工作。
2024-11-14 21:32:33
1241
原创 Movie Gen: A Cast of Media Foundation Models (Meta 92 页技术报告详解)
2024 Meta 发布的 30B 参数量的视频生成模型 Movie Gen 以及 13B 参数量的 Movie Gen Audio 视频配乐模型,支持生成高保真图像、视频和音频,同时也具备编辑和个性化视频的能力。Movie Gen 的技术报告是视频生成领域目前介绍技术细节最详细的文章。
2024-11-04 13:18:45
817
原创 RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation
2022 年旷视出品的实时视频帧插值工作。提出 RIFE 轻量级视频插帧模型,主要设计了一种基于中间流估计的视频插帧方法,另外设计了一种特权蒸馏算法来提升模型的性能和训练稳定性。
2024-10-06 18:02:19
1441
1
原创 W.A.L.T: Photorealistic Video Generation with Diffusion Models
2023 斯坦福大学和 google 联合出品的视频生成工作,提出了 Window Attention Latent Transformer (W.A.L.T),一种基于Transformer的潜在视频扩散模型(LVDMs)方法。训练了由三个模型组成的级联,包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧的速度生成 512×896 分辨率的视频,并在 UCF-101 基准测试上报告了最先进的 FVD 得分。
2024-09-03 13:33:21
997
原创 李沐讲座:大语言模型的实践经验和未来预测 | 上海交大
本文记录了李沐关于语言模型与职业生涯分享的精彩讲座,涵盖了大语言模型的核心要素、工程实践中的挑战,以及演讲者个人职业生涯中的心得体会。
2024-09-01 18:01:57
1442
原创 VEnhancer: Generative Space-Time Enhancement for Video Generation
2024 年港中文和上海人工智能实验室出品论文。介绍了 VEnhancer,支持视频的超分辨率和插帧。使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名
2024-08-30 18:30:32
974
原创 FlexAttention 详解:PyTorch 代码实现多种 Attention 变体
FlexAttention 提供了一个灵活的 API,允许使用几行惯用的 PyTorch 代码实现多种 Attention 变体
2024-08-16 13:31:35
2086
原创 Learning Multi-dimensional Human Preference for Text-to-Image Generation
2024 年快手提出的文生图评测方案,提出了多维度偏好评分(MPS),这是首个用于评估文本生成图像模型的多维度偏好评分模型。
2024-08-13 17:34:16
1249
原创 无需训练的 Diffusion MoE 方案 (SegMoE): Segmind Mixture of Diffusion Experts
2024 年 Segmind 研发的全球首个用于 Stable Diffusion 的开源专家混合(Mixture of Experts,MoEs)框架。这是一种能够将多个稳定扩散模型动态组合在一起的框架,**无需训练**即可在短时间内创建更大的 MoE 模型。
2024-08-09 18:30:54
1473
原创 pytorch 自动微分以及自定义 torch.autograd.Function 教程
本文介绍 PyTorch 自动微分以及自定义 `torch.autograd.Function` 的方法。通过 `torch.autograd` 和自定义 `autograd.Function`,可以灵活地实现复杂的前向与反向传播逻辑。
2024-08-09 17:13:38
1039
原创 Scaling Diffusion Transformers to 16 Billion Parameters
2024 年昆仑万维发表的 DiT-MoE 工作。DiT-MoE 用稀疏的 MoE 层替代了 DiT 中一部分密集的前馈层,其中每个图像块的 token 都会被路由到部分专家,即 MLP 层。此外,我们的架构包含两个主要设计:共享部分专家以捕获通用知识,以及专家级平衡损失以减少不同路由专家之间的冗余。进一步将模型参数扩展到 165 亿,而只激活了 31 亿个参数,在 512×512 分辨率下达到了新的最先进 FID-50K 分数 1.80。
2024-08-06 00:35:42
1077
原创 中国居民膳食指南书籍知识点汇总
本文以《中国居民膳食指南》书籍的内容作为基础,总结了**正常人群膳食**相关内容要点,希望能够帮助读者建立科学的膳食观念,形成健康的生活习惯。
2024-07-28 17:25:41
1105
原创 FIT: Far-reaching Interleaved Transformers
2023 年 google deepmind 提出的 FIT 网络架构,具有高效的自注意力和自适应计算,可以作为编码器、扩散解码器或自回归解码器使用。FIT 能有效降低计算量的同时保持模型的精度。值得注意的是,FIT展示了在千兆级数据(如6400×6400图像或160K tokens(经过补丁标记化后))上进行端到端训练的潜力,在16GB内存容量下,无需特定优化或模型并行化。
2024-07-24 15:39:13
973
原创 Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
2024 年 Snap Inc 提出的 Snap Video 方案。受 FIT 的启发提出了一种基于 transformer 的级联架构,相比于 Unet 有更好的可扩展性。同时针对视频生成任务优化了 EDM 中的 noise schedule 设计。根据研究参与者的反馈,Snap Video 在写实性方面与 Gen-2 相当,但显著优于 Pika。
2024-07-23 17:41:13
740
原创 月之暗面科技有限公司(Moonshot AI)内推
加入月之暗面 (Moonshot AI),你将有机会参与到前沿的人工智能技术研究与产品开发中。来和 kimi 一起登月吧!
2024-07-20 17:30:25
1892
原创 MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
2024 腾讯 ARC Lab 文章,提出了 MiraData。MiraData 是大规模、高质量的视频数据集,具有长视频(平均72.1秒)、高运动强度和详细的结构化字幕(平均318字)。同时引入了 MiraBench 用于更好评估视频生成中的时间一致性和运动强度。使用基于 DiT 的视频生成模型 MiraDiT 进行实验,验证相比于当前公开的数据集,使用 MiraData 训练的模型具有更大的运动幅度和运动一致性。
2024-07-18 18:24:06
1181
原创 模型(卷积、fc、attention)计算量 MAC/FLOPs 的手动统计方法
理解神经网络中的 MAC(乘累加操作)和 FLOPs(浮点运算)对于优化网络性能和效率至关重要。通过手动计算这些指标,可以更深入地了解网络结构的计算复杂性和资源需求。这不仅能帮助设计高效的模型,还能在训练和推理阶段节省时间和资源。本文将通过实例演示如何计算**全连接层(fc)**、**卷积层(conv)** 以及 **自注意力模块(self-attention)** 的 FLOPs 和 MACs,并探讨其对资源效率、内存效率、能耗和模型优化的影响。
2024-07-09 16:24:32
2543
2
原创 ColossalAI Open-Sora 1.1 项目技术报告 (视频生成)
Open-Sora 是潞晨科技 (ColossalAI) 团队实现的一个致力于高效生产高质量视频的开源项目,旨在让所有人都能够访问先进的视频生成技术。
2024-05-25 18:55:55
1304
原创 ColossalAI open-sora 1.0 项目技术报告 (视频生成)
开源工作 open sora 1.0 做到的效果和 sora 还有显著差距,不过其实通过借助开源的 SD VAE 工作等基本把整个视频生成的框架走通了,包括 STDiT、高质量数据生成等各个环节。后续对各个模块进一步更新可以实现更好的效果
2024-05-25 09:47:52
901
原创 大模型应用工具 LangChain 入门书籍: LangChain 简明讲义
《LangChain 简明讲义:从 0 到 1 构建 LLM 应用程序》从基础概念到实际操作,对大语言模型和 LangChain 进行了全面的介绍,以便读者深入了解模型的原理和 LangChain 的运作方式。
2024-04-14 22:02:40
769
原创 【扩散模型核心思想讲解】李宏毅 2023 最新 Diffusion Model 原理讲解
本文为 Diffusion Model 课程的学习笔记,详细讲解了扩散模型(Diffusion Model)的基本原理、应用场景、以及与其他生成模型如 VAE 和 GAN 的对比。
2024-04-14 18:46:50
7003
1
原创 Sora 基础作品之 DiT:Scalable Diffusion Models with Transformer
2022 年 UC Berkeley 出品的论文,将 transformer 应用于 diffusion 上实现了当时最佳的生成效果。DiT 论文作者也是 OpenAI 项目领导者之一,该论文是 Sora 的基础工作之一。
2024-04-01 18:08:06
2192
原创 Pytorch CUDA Reflect Padding 算子实现详解
通过这篇博客,我们简单介绍了 CUDA 和反射填充的概念和应用,提供了实际的代码实现理解和对应资源的链接,希望能帮助读者更深入地理解并利用这些技术。
2024-03-20 16:35:10
1348
原创 OpenAI Triton 入门教程
OpenAI 研发的 Triton 是一个专门为深度学习和高性能计算任务设计的编程语言和编译器,它旨在简化并优化在GPU上执行的复杂操作的开发。Triton 的目标是提供一个开源环境,以比 CUDA 更高的生产力编写快速代码。
2024-02-28 23:59:41
11659
1
原创 FSQ: FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE
2023 年 google 发表的文章,可以用于文本、视频生成领域中。提出一种称为有限标量量化(FSQ)的简单方案来替换 VQ-VAEs 中的向量量化(VQ)。解决传统 VQ 中的两个主要问题: - 需要避免 codebook collapse 的辅助损失 - 大 codebook size 情况下码本利用率低
2024-02-22 19:04:22
2658
2
原创 OpenAI Sora 技术报告: Video generation models as world simulators
2024 OpenAI 的视频生成工作 Sora。探索在视频数据上进行大规模生成模型的训练。具体来说,作者团队在多种持续时间(duration)、分辨率 (resolution) 和长宽比 (aspect ratio) 的视频和图像上训练文本条件扩散模型。利用了一个在视频和图像潜在编码的时空补丁 (spacetime patches) 上运行的 transformer 架构。所提出的 Sora 能够生成一分钟高保真度的视频。实验结果表明,扩展视频生成模型是建立通用物理世界模拟器的有前途的途径。
2024-02-21 12:31:54
1091
原创 (MAGVIT-v2) Language Model Beats Diffusion: Tokenizer is key to visual generation
2023 年 google 和 CMU 的文章,介绍了视频 tokenizer MAGVIT-v2,旨在使用共同的词汇表为视频和图像生成简洁而富有表现力的 token。如论文标题提到的,该研究首次在 ImageNet 数据集上展示了基于 LLMs 的生成效果超过扩散模型
2024-01-21 19:27:41
2573
2
原创 PyTorch 节省显存技巧:Activation Checkpointing
本文介绍了 PyTorch 中的激活检查点技术,旨在减小内存占用,同时提供更多计算资源。其中详细讨论了 PyTorch 中的自动求导机制,以及两种激活检查点的实现方式:可重新进入(reentrant)和不可重新进入(non-reentrant)。特别关注了非可重新进入版本的新特性,包括嵌套检查点、在检查点内调用 .grad()/.backward() 的支持、非确定性检查和调试性的改进、在指定 retain_graph 时的内存节省等。同时,还介绍了可重新进入变体的实现方式,并提供了简单的用法示例。
2024-01-01 22:46:13
3485
原创 MAGVIT: Masked Generative Video Transformer
2023 年 CMU、google 等发表 CVPR2023 Highlight 文章,提出了视频生成方法 MAsked Generative VIdeo Transformer (MAGVIT),基于两阶段方式训练,在多个视频生成测试集上取得了最佳效果。同时推理速度会显著优于同时期的 diffusion 方法和自回归方法。
2023-12-25 17:55:02
1586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人