大模型LLM
文章平均质量分 73
Echo木
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-V3.2论文
计算效率的优化,并有卓越的推理和智能体性能。关键突破包括:1.DeepSeek Sparse Attention (DSA),减少计算复杂性,在长文本场景下保护模型复杂性。2.可扩展的强化学习框架,通过实现鲁棒的RL协议,扩展后训练计算,使得V3.2的性能接近GPT-5。高性能版本V3.2-Special超越了GPT-5,达到了gemini-3-pro水平3.大规模智能体任务合成pipeline。为应对tool-use场景,提出synthesis pipeline以生成训练数据。原创 2025-12-14 18:22:06 · 303 阅读 · 0 评论 -
旋转位置编码RoPE
(最基本的要求),同时最好满足位置编码经验上的性质:(绝对位置编码)计算简单(计算需要)、(相对位置编码)远程衰减(存在相对位置越大,计算的点击越小的趋势,对应经验上位置越远相关性越低)。定义融入绝对位置信息的函数f(x, pos),需要计算点积f_q(q_m, m)^T f_k(k_n, n)RoPE的核心思想是,对q、k使用绝对位置编码融入位置信息,但计算点积时能表现出相对位置信息,即。计算之前,对q和k,需要融入位置信息,也可以说对x_m、x_n先融入位置信息在变换得到q、k。原创 2025-07-29 11:49:30 · 425 阅读 · 0 评论
分享