- 博客(189)
- 收藏
- 关注
原创 不止于更深:Facebook AI CaiT 模型全方位深度解析
在Vision Transformer (ViT) 开启了用Transformer架构解决计算机视觉任务的大门之后,一个核心问题随之而来:我们能否像在NLP领域那样,通过简单地堆叠更多的层来构建性能更强的视觉模型?答案并非想当然的“是”。早期的尝试表明,直接加深标准的ViT模型会导致训练不稳定和性能饱和。
2025-08-12 19:20:24
612
原创 Score King:基于 Cursor + GPT5 实现的桌游计分神器(Web + Android)
“Score King (桌游计分王)” 是一个专为多人桌游设计的计分工具,涵盖 Web 端(Flask + HTML/JS)和 Android 原生 App(Kotlin + Jetpack Compose)。该项目方便玩家在浏览器或移动设备上轻松管理分数、设置胜利条件并自动判定胜利者。
2025-08-10 19:15:45
306
原创 Canon Layer 详解:Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Laye
2025 年 Meta 研究员朱泽园 (Allen-Zhu) 的工作,设计可控的合成预训练任务来验证不同模型架构的优劣。基于该合成预训练任务进行实验,提出 Canon 层,作为跨相邻 token 的水平“残差连接”,可灵活插入注意力前(Canon-A)、注意力内(Canon-B)、MLP 前(Canon-C)、MLP 内(Canon-D)。
2025-08-06 20:34:48
845
原创 AI 编程学习网站分享:vibe-coding-tutorial
如果你对 AI 编程有点兴趣,想找几个好用的工具来提效,可以去逛逛这个教程网站 👉。内容不长、干货多,适合平时写代码时想借助 AI 省点力气的朋友。说不定能找到几个趁手的 AI 编程工具,让你以后写代码更轻松。
2025-08-04 16:58:46
248
原创 KIMI K2 技术报告: OPEN AGENTIC INTELLIGENCE
2025 年 Kimi 推出了全新开源模型 Kimi K2,1T 总参数量的 MoE 模型,在 agent 和 coding 能力上表现突出。
2025-08-02 17:37:13
444
原创 国内外大模型的代码能力实测与评估:Claude Sonnet 4、GPT4o、Deepseek R1、Kimi K2 等模型
本文围绕大模型的**编程能力评估**展开,结合两个具有代表性的公开评测榜单(LiveCodeBench 和 SWE-Bench),并以两个自构造的典型测试样例(小球物理模拟 + Triton 算子实现)作为补充,实测多个主流大模型的表现,包括 GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro、Kimi K2、DeepSeek R1、豆包、Qwen3-235B 等。
2025-07-27 17:09:19
1258
原创 Vibe Coding 实践指南: Claude Code、Gemini CLI、Qwen Code、Codex
本文将介绍目前主流的几款 AI 编程 CLI 工具:Claude Code、Gemini CLI、Qwen Code、Codex(OpenAI),包括它们的安装使用方法、项目应用实战(主要以 Claude Code 为例)。
2025-07-27 16:54:58
857
原创 AI Coding IDE 介绍:Cursor 的入门指南
Cursor 是一款 AI 驱动的代码编辑器,旨在通过先进的 artificial intelligence(人工智能)技术来提升开发者的生产力和编码效率。无论你是 AI 工具的爱好者,还是经验丰富的程序员,Cursor 都能为你的开发流程带来显著的改进。它不仅提供了智能的代码补全功能,还可以通过“问答”模式(Ask Mode)快速回答编码问题,甚至可以通过“代理”模式(Agent Mode)自动完成复杂的编码任务。
2025-07-27 15:53:33
1188
原创 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
2025 年阿里 Qwen 团队的工作,系统性地探讨了门控机制在标准 softmax 注意力中的作用,揭示其对模型性能、训练稳定性和注意力动态具有显著影响。**研究结果表明在缩放点积注意力(SDPA)后应用 sigmoid 门控是提升效果最显著的方案**
2025-07-25 12:35:33
784
原创 深入解析大语言模型推理优化
**本文将详细介绍 transformer 模型推理基础、推理成本预估、推理效率优化等内容,包括:** - KV Cache 的工作原理及其重要性 - 推理瓶颈分析与性能优化策略 - 分布式推理部署的最佳实践 - 前沿优化技术如推测采样等
2025-07-12 11:18:17
504
原创 百度文心 4.5 大模型详解:ERNIE 4.5 Technical Report
2025 年百度发布的 ERNIE 4.5 系列模型,技术报告很有深度,开源的诚意应该已经达到 deepseekv3 水平。ERNIE 4.5 包括具有 47B 和 3B 活跃参数的混合专家(Mixture-of-Experts, MoE)模型,其中最大模型的总参数量达到了 424B,同时还包括一个 0.3B 的稠密模型。
2025-07-05 16:59:42
1225
原创 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
2025 年 minimax 推出的 MiniMax-M1 模型,全球首个开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家(Mixture-of-Experts, MoE)架构,并结合线性注意力机制,456B 总参数量,激活参数量 45B。还提出了增强 RL 效率的新算法 CISPO,MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练,总租用成本仅为 534,700 美元。
2025-06-26 16:00:06
834
原创 Kimi-Researcher 技术详解
2025 年 Kimi 发布的 Kimi-Researcher —— 一款擅长多轮搜索与推理的自主智能体。Kimi-Researcher 构建于 Kimi k 系列模型的内部版本之上,完全通过端到端的智能体强化学习(RL)训练而成。目前已能在 kimi 网页端进行体检。
2025-06-21 15:34:01
1937
原创 Advancing Expert Specialization for Better MoE
2025 年北邮提出的一个基于梯度的多目标优化框架,促进专家专业化和路由多样化,同时保持辅助损失中的负载平衡。引入了两个互补的目标,分别鼓励专家专业化和路由多样化。
2025-06-17 15:07:57
713
原创 面壁智能 MiniCPM4 技术报告:适用于边缘芯片的 0.5B/8B 级高效大模型
2025 年面壁智能 MiniCPM Team 成功开发出**适用于边缘芯片的 0.5B/8B 级高效大模型 MiniCPM4**。在终端设备上处理 128K 长文档时,实现了 7 倍的推理速度提升。
2025-06-11 17:48:28
728
原创 Hardware-Efficient Attention for Fast Decoding
2025 年普林斯顿大学提出的硬件友好 attention 设计,在 MQA/GQA 与 deepseek 提出的 MLA 基础之上继续优化,提出 Grouped-Tied Attention (GTA) 和 Grouped Latent Attention (GLA),实现更高推理效率的同时也能保持较好的模型效果。
2025-06-08 14:57:09
785
原创 Qwen3 技术报告详解
2025 年通义实验室发布的最新模型 Qwen3,首次在 Qwen 系列中使用了 MoE 架构,并且在一个模型中同时支持了推理和非推理模式,同时使用了大量的合成数据训练,达到了开源模型的 SOTA 榜单效果。
2025-05-28 20:30:00
1842
原创 GATED DELTA NETWORKS : IMPROVING MAMBA 2 WITH DELTA RULE
2024 年 Nvidia + MIT 提出的线性Transformer 方法 Gated DeltaNet,融合了自适应内存控制的门控机制(gating)和用于精确内存修改的delta更新规则(delta update rule),在多个基准测试中始终超越了现有的模型,如 Mamba2 和 DeltaNet。
2025-05-28 19:46:30
964
原创 BLIP3-o:理解和生成统一的多模态模型
本文探讨了统一多模态模型中图像理解和生成的关键设计问题。研究基于自回归与扩散混合架构,重点分析了三个核心问题:(1)图像表示方面,比较了VAE和CLIP-Diffusion两种编码器-解码器范式的优劣;(2)训练目标上,MSE损失能确定性地生成图像,而流匹配损失则支持多样化的图像生成;(3)实验表明,CLIP+流匹配组合在提示对齐指标上表现最佳,VAE+流匹配则在视觉美学质量上最优。研究为构建更强大的多模态AGI系统提供了重要的设计指导。
2025-05-24 23:50:40
739
原创 RNope:结合 RoPE 和 NoPE 的长文本建模架构
2025 年 Cohere 提出的一种高效且强大的长上下文建模架构——RNope-SWA。通过系统分析注意力模式、位置编码机制与训练策略,该架构不仅在长上下文任务上取得了当前最优的表现,还在短上下文任务和训练/推理效率方面实现了良好平衡。
2025-05-16 18:18:05
1321
原创 KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
2024 年 UC Berkeley 提出的 KV cache 量化方法 KVQuant,对近期 LLM 中的 KV 缓存激活值进行了深入分析,揭示了可用于实现超低精度量化且损失极小的方式,相关代码也已开源。
2025-05-16 16:19:02
988
原创 π0: A Vision-Language-Action Flow Model for General Robot Control
2024 年 Physical Intelligence 发布的 VLA 模型 π0,基于 transformer + 流匹配(flow matching)架构,当前开源领域最强的 VLA 模型之一。
2025-05-15 23:38:41
662
原创 KV cache 缓存与量化:加速大型语言模型推理的关键技术
在大型语言模型(LLM)的推理过程中,KV 缓存(Key-Value Cache) 是一项至关重要的优化技术。自回归生成(如逐 token 生成文本)的特性决定了模型需要反复利用历史token的注意力计算结果,而 KV 缓存通过存储这些中间值(即键值对 K/V),避免了重复计算,大幅提升了推理效率。由于解码器是因果的(即,一个 token 的注意力仅取决于其前面的 token),因此在每个生成步骤中,我们都在重新计算相同的先前 token 的注意力,而实际上我们只是想计算新 token 的注意力。
2025-05-13 20:03:55
1735
原创 KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
2024 年莱斯大学提出的无需微调的 2bit KV 缓存量化算法 KIVI,可以使 Llama、Falcon 和 Mistral 模型在使用 2.6 倍更少的峰值内存(包括模型权重)的情况下保持几乎相同的质量。
2025-05-13 19:42:09
761
原创 多模态大模型中的视觉分词器(Tokenizer)前沿研究介绍
本文梳理了 8 篇视觉分词器(Tokenizer)前沿工作,涵盖视觉分词器(Tokenizer)中的潜在空间优化、动态长度分词、全模态对齐等方向。从 MAETok 揭示潜在空间结构对扩散模型的关键作用,到 FlexTok 实现 1-token 极端压缩仍保持语义完整性,再到 Ola 构建支持"看听说写"的全模态模型
2025-05-10 18:17:50
1241
原创 Qwen3: 阿里通义千问最新发布模型的介绍与测试
2025 年阿里通义发布的最新版本模型 Qwen3,代码数学等榜单的精度很高,模型系列很全,包含 MoE 与 Dense 模型,同时支持推理和非推理模式。
2025-04-29 18:37:03
1720
原创 LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
2024 年 Meta FAIR 提出了 LayerSkip,这是一种端到端的解决方案,用于加速大语言模型(LLMs)的推理过程
2025-04-29 18:02:10
943
原创 Octo: An Open-Source Generalist Robot Policy
2024 年 UC Berkeley、google deepmind 等出品的机器人 VLA 工作,推出了 Octo,这是一个基于 Transformer + diffusion 架构的策略,提供了 27M 和 93M 两个参数量的模型版本,模型完全开源。
2025-04-29 12:05:55
796
原创 OpenVLA-OFT
2025 年斯坦福提出的 OpenVLA 工作的续作 OpenVLA-OFT,优化 VLA 能够有效适应新的机器人平台和任务,优化的技术主要有并行解码、动作块处理、连续动作、L1 回归和(可选的)FiLM 语言调节
2025-04-28 17:34:26
812
原创 OpenVLA:大语言模型用于机器人操控的经典开源作品
2024 年斯坦福大学提出的 OpenVLA,基于大语言模型实现机器人操控,代码完全开源。
2025-04-27 18:37:12
1557
原创 MAGI-1: Autoregressive Video Generation at Scale
2025 年 sand AI 发布的视频生成工作,提出了 MAGI-1:一种基于扩散的大规模生成模型,**通过自回归地生成按时间分块的视频,每个块包含一段固定长度的连续帧**
2025-04-27 17:28:16
1174
原创 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
2024 年 google deepmind 出品的文章,研究了在静态计算预算下的语言建模问题,提出了 Mixture-of-Depths(MoD),强调每个 token 可以在 Transformer 结构中经历不同数量的层,是一种 dynamic model 的设计。
2025-04-25 18:12:13
983
原创 HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
2025 年字节 SeedFoundation-Model 发表的论文,提出了 HybridNorm,一种简单却有效的混合归一化策略,整合了 Pre-Norm 和 Post-Norm 方法的优点
2025-04-17 17:53:48
596
原创 MIX-LN: UNLEASHING THE POWER OF DEEP LAYERS BY COMBINING PRE-LN AND POST-LN
2024 年大连理工发表的文章,提出了一种新型的归一化技术——Mix-LN,它结合了 Pre-LN 和 Post-LN 的优点,并将它们应用于同一个模型中。**Mix-LN 将 Post-LN 应用于浅层,将 Pre-LN 应用于深层**,从而确保整个网络的梯度更加均匀。
2025-04-17 16:08:38
585
原创 GPT-4.1 提示词使用指南
**GPT-4.1 比其前代模型 GPT-4o 更倾向于严格跟随指令**,而不是像 GPT-4o 那样更自由地推断用户和系统提示的意图。这也意味着,**GPT-4.1 对明确指定的提示具有很高的可引导性和响应性**,如果模型的行为与用户的预期不同,一句简洁而明确的说明用户的期望行为几乎总是足够让模型回到正确的轨道。
2025-04-16 17:04:28
1896
原创 Meta 最新发布的 Llama 4:多模态开源大模型全面解析
2025 年 4 月 5 日,Meta AI 正式发布了第四代大型语言模型 Llama 4。引入了 Mixture-of-Experts (MoE,专家混合) 架构,同时原生支持多模态输入,最小的 Llama 4 Scout 模型支持 10m 的长文本输入。
2025-04-07 20:46:14
1244
原创 Muon: An optimizer for hidden layers in neural networks
Muon 激发了人们对于优化器创新的热情——长久以来,Adam/AdamW 几乎是大多数任务的不二之选,而 Muon 证明了通过深入挖掘梯度结构特性,我们仍能找到显著优于现有方法的新途径。
2025-03-17 22:45:33
1350
2
原创 Talking Head Review (数字人算法综述)
本文对当前最前沿的 3D 说话人脸生成模型进行了深入梳理,包括 **GeneFace**、**GeneFace++**、**Real3D-Portrait**、**MimicTalk**、**VASA-1**、**LivePortrait**、**MegaPortraits**、**EchoMimic**、**OmniHuman-1** 等。
2025-03-10 22:28:53
1680
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人