- 博客(367)
- 资源 (2)
- 收藏
- 关注
原创 大模型持续学习
当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域的研究者提供一个全面的参考。
2025-12-19 15:52:46
993
原创 kimi k2(开源模型,1T -32B-MOE)
预训练:改进MuonClip 优化器提升训练稳定性1T -32B-MOE模型,使用 15.5 万亿个 token 进行预训练的整个过程中,没有出现过一次损失尖峰,训练过程极其平滑稳定。这在万亿参数模型的训练中是一个非常了不起的工程成就。有 384 个专家,每次激活 8 个。这个“稀疏度”(384/8 = 48)比之前的很多模型都要高。报告指出,根据他们的“稀疏度缩放定律”(Sparsity Scaling Law),在计算量不变的情况下,专家越多(越稀疏),模型性能越好。
2025-12-12 17:52:38
720
原创 Step-Audio-R1
提出问题:在文本和视觉领域,通过CoT进行更复杂的推理,能显著提升模型性能。然而,现有的音频语言模型在进行推理时,其性能反而会随着推理链条的增长而下降,表现出一种反常的“反向缩放”现象。分析问题:音频模型无法从CoT受益,问题的根源在于模态错配:当模型分析音频时,实际上是在分析音频的文字转录稿或文本描述,而不是音频本身的声学特性(如音调、节奏、旋律等)。例如,它会根据“歌词提到悲伤”来判断音乐的忧郁,而不是分析其“小调式和弦和下行的旋律轮廓”。
2025-12-11 14:47:32
1000
原创 大模型的不确定性
Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,避免浪费时间。
2025-12-09 11:40:48
860
原创 nvidia&cuda&gpu 关系学习
如果在国产GPU上跑N卡训练的模型,需要搭建一个全新的运行管道:AI框架 (PyTorch) -> 调用 国产GPU的API -> 国产GPU驱动 -> 在 国产GPU 上执行计算。在NVIDIA平台上运行模型时,实际发生的过程是:AI框架 (PyTorch) -> 调用 CUDA API -> CUDA驱动 -> 在 NVIDIA GPU 上执行计算。国产GPU的API -> 国产GPU驱动 都是自研的部分,每一家目前不太一样。
2025-12-08 16:51:30
211
原创 语音大模型评估工作bytedance2篇
之前的s2s 模型,只是根据语义理解进行内容回复,但实际上内容的传达除了文字,还有说话人的语气,语气不同,对应的语义可能千差万别。建立一个评测的benchmark,利用预训练的作为打分模型训练一个可以情感一致回复的ParaS2S align(将AudioReasoner蒸馏一个快速的打分模型)
2025-11-18 15:39:24
970
原创 Step-Audio-EditX
改进了对音频风格(emotion,)的可控生成能力method:利用large-margin synthetic data,通过加大对比,让模型学会解耦能力;3B的模型,比之前130B模型的性能更好;
2025-11-13 20:11:43
609
原创 RAE:Diffusion Transformers with Representation Autoencoders
此外,为了更高效地扩展模型宽度而不增加过多计算成本,作者引入了一个新架构 DiTDH(受DDT启发),它包含一个浅但极宽的“去噪头”(wide diffusion head),专门负责处理高维输入。
2025-11-03 20:11:38
370
原创 voxcpm
离散的token 容易损失信息,连续的embedding 会发生错误累计(容易崩溃)本文提出一种方式,很好的把离散特征和连续embedding 进行结合。
2025-10-28 11:18:03
241
原创 gemma3
相比于gemma2,(1)增加了视觉理解能力;(2)长上下文 - 支持至少128K令牌;(3)多语言能力增强(数据+tokenizer)vision encoder: 集成了一个定制版的 SigLIP 视觉编码器。SigLIP会将图片转成patch,再提取embedding,作为视觉信息的输入;适用了和Gemini 2.0一样的tokenizer,词表262k,对于非英语语言更加均衡。
2025-10-20 16:00:48
330
原创 Unified Autoregressive Visual Generation and Understanding with Continuous Tokens
一个模型,既做理解,又做生成;使用transfomer+diffusion head的结构训练。基于2B(主力模型),7B(探索模型)进行实验,Gamma框架base model。结论:生成和理解任务可以相互增益。两者之间存在可控的权衡关系。强大的LLM底座是提升多模态能力的关键。随机顺序等训练技巧对高质量生成至关重要。
2025-09-28 15:25:46
725
原创 Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice
基于文本模型,加入音频模态,能够同时做speech2speech translation,asr,tts通过强化学习的方法,在翻得快(不用src 整句说完)和翻得准方面都取得提升可以在翻译的同时clone your voice,但是这部分没有介绍。
2025-09-26 16:06:59
768
原创 LLM 长上下文 & RAG
位置插值 (Position Interpolation, PI):当需要将上下文从 L 扩展到 L’ 时,不是让模型去“外推”到未见过的位置,而是通过“插值”将新的位置索引“压缩”到原始的 [0, L) 范围内。Llama 4 则将上下文长度的界限扩大到超过 1000 万个 token。Q:对于openAI, gemni 长序列工作的研究&推测。Q: qwen其他长序列的工作–Qwen3Long1。经典位置编码:旋转位置编码(RoPE),正弦编码。Q1:预训练之后做位置编码改变,需要注意什么?
2025-09-06 15:43:22
861
原创 music gen: StableAudio, DiffRhythm
音乐风格:1.0 版本用风格embedding;2.0 版本用mulan --可以从音频/文本提取风格表示;文本g2p 表示,需要提前进行时长的对齐,为了避免对齐的误差,代码中会随机的进行一定比例的mask,用于预测;和StableAudio结构基本一样。, hf 上有开源的模型。加入DPO 进行偏好优化。
2025-09-05 18:02:44
262
原创 x-omini
LLM 直接预测text & image token,图片image token 通过VQ 反解码,然后通过diffusion 还原成音频;sigLIP-VQ 将10241024的图片压缩成6464= 4096个token,序列长度会很长;为了保证模态融合,文本记忆 不丢失,在LLM 中插入vision-specific blocks模块;—transformer原有的block,增加attention block,只处理image token(mask的形式实现)设计考虑:为什么要这么设计?
2025-08-18 17:52:54
262
翻译 index-tts2 【2025.6】
对于AR 模型,控制合成音频的token个数,实现对时长的控制;保证视频配音的音画同步;一个情感prompt,一个音色prompt,实现解耦;把GPT latent representations 引入,增强在情感控制下发音的清晰度,保证稳定性;1k条deepseek R1 生成的情感音频描述性文本,通过LoRA微调Qwen3-1.7BMaskGCT 的semantic tokens;
2025-08-11 23:57:15
768
原创 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
VoiceAssistant-400K 的数据集。audio token:SNAC的码本,7级。SNAC 的不同级别,码本的预测粒度不同;
2025-08-11 16:03:12
304
原创 MinMo[2025.1]
8b 模型,140 万小时,在TTS/ASR/speech2speech 任务上进行对齐;asr延迟约为 100 毫秒,全双工延迟理论约为 600 毫秒,整体约为 800 毫秒可以实现的任务:口语对话、多语言语音识别、语音翻译、情感识别和说话人分析MinMo 能够生成与用户指定情绪相对应的语音, 方言、语速以及模仿特定声音。demo架构: sense voice encoder + qwen instruct LLM + cosyvoice2。
2025-08-11 14:21:26
824
原创 Step-audio系列
训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)增强智能:agent 配合两种音频tokenparallel linguistic (16.7Hz, 1024-codebook): 音素和语言特征,Paraformer encoder + VQ。
2025-08-11 14:20:08
997
原创 LLM attention 变体
块表(Block Table):PagedAttention 为每个请求维护一个逻辑上的“块表”。这个表记录了逻辑上的 token 块(比如序列的第1块、第2块…)映射到物理显存中哪个实际块地址。非连续存储 (Non-contiguous Storage):这些块可以存储在显存的任何位置,不需要是连续的。
2025-08-10 15:11:18
954
原创 speech2speech论文汇总
增强副语言的理解能力;和step-audio相比模型size 更小,引入CoT和RL 改进效果,引入RAG改善幻觉问题6800 亿个 token 的文本数据和 800 万小时的真实和合成音频数据上训练补充了 speech2speech translation的任务;训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)
2025-07-31 13:51:48
779
原创 音效生成:Kling-Foley & MM-Audio
仅用这个position embedding 还不足以保持对齐稳定,因此还引入了synchformer:audio & vision 模态的对齐。从 flux2024 工作中引入音频专用模块,在不牺牲多模态能力的情况下,使用相同的参数使网络更深。这种架构允许模型根据输入有选择地关注不同的模态,支持audio-vision和audio-text数据的联合训练。,引入learnable duration embeddings ,和视频/文本中提取的global conditioning features混合;
2025-06-30 13:14:27
685
原创 Audio Tokens的思考
我们使用 SALMon 和 Zero-resource 基准分析每个分词器(tokenizer)在训练声学语言模型方面的有效性。,因此直接用token ,训练下游分类任务和生成任务的有效性。Audio 和 Music 任务。声学指标(SALMon 评估套件)Codebook 大小的影响。离散token与连续emb。
2025-06-27 18:36:02
1013
原创 F5-TTS & F5RTTS
diffusion-tts,不需要显式的phn-level or char-level 对齐信息;相比于E2-TTS 改进:增加text encoder-conv2Next v2 结构,先对文本进行编码,再和音频拼接,能更好的处理语义信息,缓解length gap 带来的收敛困难,对齐错误问题;其它改进项:sway sampling,
2025-06-16 10:54:17
620
原创 强化学习概念&代码实现 PPO & DPO & GRPO
要有奖励函数,但是不能是单一的绝对值奖励(最终目标奖励),这样会使得一些小的优化step 因为奖励太少/没有而被忽略;建立baseline,每次相对于baseline (critic)的改进是奖励,这个baseline 也是会学习 & 调整的;防止过度更新:对每次的奖励设置clip,并且限制新策略不会比旧策略偏离太远;
2025-06-12 10:55:28
698
原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
LLM 预测连续embedding,直接接DiT。和的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。
2025-05-30 17:56:44
1190
原创 cosyvoice3
用了更大量、多样的训练样本;直接基于token 做强化学习(WER/Speaker simi/Emotion)文章写的有点糙,后边很多sft 的方法只放结果不说实验细节。
2025-05-30 11:20:41
787
原创 Minimax-speech-hd
speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;
2025-05-29 20:41:00
308
原创 flow-matching 之学习matcha-tts & cosyvoice
【代码】flow-matching 之学习matcha-tts & cosyvoice。
2025-05-08 14:15:23
994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅