- 博客(1845)
- 收藏
- 关注
转载 新鲜出炉!斯坦福2025 CME295课程免费公开
首先从Transformer基础讲起,包括 NLP 背景、分词、向量表示等基础概念以及Transformer架构。后续各讲分别深入探讨基于Transformer的。最后,给大家推荐AI+交叉学科的现有idea,如果你想在3-6个月内发一篇计算机SCI/CCF相关论文,一定不要错过!、LLM 的训练、调优、推理、赋予能动性、评估等方面,最后一讲聚焦于结论与未来趋势。:Transformer模型的核心,实现长距离依赖捕捉。:Transformer编码器-解码器结构的详细解析。分词(Tokenization)
2025-11-13 09:01:48
24
转载 李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
在漫长的人类历史中,我们共享的唯一三维世界是物理世界。随着空间智能世界模型在推理与生成能力上的不断增强,可以想见,在某些情况下,模型不仅能预测世界的下一状态,还能基于这一新状态,进一步预测实现目标所需的下一步行动。无论是孩子在沙滩上筑起的沙堡,还是他们在电脑上玩《我的世界》所创造的空间,这种基于空间的想象力构成了现实与虚拟世界中交互体验的核心。借助具备空间智能的模型,建筑师可以在动工之前快速可视化建筑结构,甚至漫步于尚未存在的空间中,从而以一种讲故事的方式,探索人类未来的生活、工作与聚会方式。
2025-11-11 17:59:57
53
转载 Claude 4.5 杀疯了,能一口气写出一万多行代码。。。。
他觉得AI 编程体验很像是处于 L2 阶段的自动驾驶:你给出方向(spec),平时让系统自动行驶,只有在复杂路段或偏离轨道时,才需要接管。卷编程速度和开发能力,人类肯定是卷不过 AI 的,而且差距会越来越大。这 4 个视频选的都是比较有代表性的实操案例,既有功能实现,也有技术选型与 AI 协作的思维模式升级,知识点一串多。首先,视频全都是最近录制的,非常新鲜,而且讲得比较细致,基本上就是把实操过程录下来了,方便跟练。」,有 4 个独立的实战案例视频,展示 AI 编程最佳实践。更夸张的是,它能连续敲出。
2025-11-10 16:17:06
22
转载 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较
当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函数。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的架构(更多Transformer块),具有更多的层,而 Llama 3 是一种更宽的架构,具有更多的注意力头。
2025-11-09 16:59:10
32
转载 Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识
它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。合成序列具有固定长度,包含一个由随机字母重复8次构成、位于随机位置的「目标」,以及由感叹号组成的独立同分布噪声,还有一个提示目标字母的提示语。这可能是一个重要节点,Transformer的思维方式被重塑,从「预测下一个词」迈向「思考如何表达」。第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。
2025-11-06 16:49:00
28
转载 全国首部AI智能体应用评估标准,现公开征集起草单位和个人!
标准为应用方的各类企业用户提供了一套系统的评估方法,有效化解“选型难、衡量难、优化难”的困境。,通过构建一套支持智能体规模化、高质量应用的评估基座,为各类企业及服务机构提供一致、可信的评估依据,填补当前智能体应用效果难以量化、跨系统对比缺失标准的核心空白。面对市场上多样的AI智能体,由于缺乏统一的“能力标尺”,企业难以科学评估其与自身业务场景的匹配度,导致投入巨大资源后,智能体却无法有效解决业务问题。传统的绩效指标难以适用,导致AI智能体的成效难以衡量,智能体投资的商业合理性也无法得到有效证明。
2025-10-30 09:30:31
56
转载 李沐:年度演讲谈智能体!
“没问题,John。如果最好的闭源模型(比如OpenAI)的API得分是90,但在你的应用中,通用能力测试得分必须是85。我们现在做的是Al电话销售员(Al telemarketer),也就是说,语音智能体扮演的是“电话推销员”的角色。我们学到的一个重要经验是,即使是游戏这种听起来很简单领域,也涉及大量遵循指令(instruction following)的问题。例如,这个游戏是科幻题材,时间设定在两千年后,而你的对话是随机的?“如果你的牙齿出现(具体)问题,(赔付是多少)” 这样的回答才是准确的。
2025-10-29 15:33:25
31
转载 小米最新大模型成果!罗福莉担任通讯作者!
不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起来。但稍有有个新问题,在这篇论文成果的单位注释中,罗福莉的单位没有被明确,她既不是北大的,也没有被归入小米。
2025-10-17 15:20:25
56
转载 18岁天才少年,登上Nature封面!
2022年加入DeepSeek,并参与了DeepSeek-Coder、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-V3、DeepSeek-R1等几乎所有重要项目的研发。年仅18岁的天才少年涂津豪作为作者之一,以实习生身份参与其中,他的故事从高中生到Nature作者,堪称励志传奇。凭借Claude的强大性能,结合Thinking Claude思维模式的加持,再配上强大的Artifacts功能,称它为「完全体o1」也绝不为过。有了这个提示词,Claude 3.5变得异常强大。
2025-10-15 18:27:43
59
转载 最新两篇论文,把Deep Research讲透了!
那么关于Deep Research背后更全面的技术栈都有哪些?前几天,阿里开源了Tongyi DeepResearch,热度很高,目前14.1k star了。(Gain-Beyond-RAG):相比“无脑 top-k RAG”的。:MT-GRPO 给“成功调用+返回含答案片段”即时 bonus;直接优化“端到端任务成功”,天然契合“工具-交互”研究场景。,面对开放、动态、复杂的科研任务时往往力不从心。“能自己找资料、写综述、做分析”的AI研究员。整合证据,生成结构清晰、事实可靠的报告。
2025-09-28 10:49:53
86
转载 下载量突破 22 万!MiniCPM-V 4.5 刚刚公布了最新技术报告!
尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL 72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服务器部署。这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。
2025-09-26 20:22:02
97
转载 梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义?
梁文锋署名通讯作者!国外的 AI 企业,发表的是 Technical Report(技术报告),是 Model Card(模型卡),那都是吹嘘自己模型 SOTA 成绩的广告,而不是可复现、可验证的学术成果。相比于当初的预印本内容,Nature 版论文经过评审和修改,实验透明度更高,真正作为学术成果发布,增加了海量的技术细节,比如各阶段的流程图、GRPO 算法、奖励模型的设计、超参数等等。但这恰恰说明,R1-Zero 的方法是有范式价值的,是经得起时间检验的科研成果。任何对合成内容的接触都是偶然和间接的。
2025-09-21 17:22:28
105
转载 OpenAI发长篇论文:大模型幻觉的原因找到了!
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf。最新Kimi-K2-Instruct-0905开源、Qwen3-Max-Preveiw发布,国产大模型越来越好!图 1:Is-It-Valid二分类视角——生成错误⇔把"-"判成"+"表1 提供了一些更复GPT-4o杂的幻觉示例:GPT-4o/(对1分/错0分)让模型不敢"交白卷"
2025-09-15 17:05:41
78
转载 姚顺雨离职OpenAI,开启下半场
他需要去做更有挑战的事情,去创业是很自然的。当然,从OpenAI离职也不一定非得创业,比如姚顺雨的导师Karthik Narasimhan,就在OpenAI呆了一年后,选择了离开,并去普林斯顿继续象牙塔科研了。众所周知,让一张白纸反复试错的效率极低,而在传统强化学习中,这种低效尝试却屡见不鲜:智能体通常要么被限制只做单一任务,比如下围棋,要么在庞大的动作空间中盲目探索。正如这本书所启发的那样,跨学科的眼光与对复杂信息的开放态度,似乎贯穿着姚顺雨的整个求学生涯,并逐渐形成一种个人的风格特质。
2025-09-12 18:01:18
87
转载 vLLM 推理引擎的核心优化技术及其工作流程
这种方法巧妙地结合了两种并行策略:专家并行用来处理 MoE 层的巨大专家数量,而数据并行则用来高效地处理非专家层的计算,从而在保证高吞吐量的同时,支持超大规模的 MoE 模型。这种混合并行方法将模型的两个维度都进行了切分:流水线并行切分了模型的层(垂直方向),而张量并行切分了每一层的权重(水平方向),从而能够服务那些规模巨大的模型。All-reduce 是一种高效的通信操作,它能让所有设备上的部分输出汇总到每个设备上,并求和,最终每个设备都拥有完整的输出结果,可以进行下一步的计算。
2025-09-05 12:53:27
141
转载 突发,Agentic新SOTA诞生!美团开源560B大模型
LongCat-Flash-Chat,这是一款non-thinking基础模型,在领先模型中表现极具竞争力,尤其在Agentic任务中表现出色,超过。为了实现先进的训练和推理效率,采用了捷径连接架构,扩大了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理。LongCat-Flash,这是一款拥有 560B 总参数的强大且高效的语言模型,采用了创新的专家混合(MoE)架构。全面训练和扩展策略确保了稳定、高效的训练,而量身定制的数据策略则提升了模型性能。昨晚,美团入局大模型!
2025-08-31 16:17:01
73
转载 英伟达新研究:小模型才是智能体的未来!
说起来,小模型就像Unix“一个程序只做好一件事”(Do One Thing and Do It Well)的设计哲学,把复杂系统(大模型)拆成小、专一、可组合的模块(小模型),每个模块做好一件事,然后让它们协同完成更大任务。最后,也是争议的核心——虽然小模型部署门槛正在下降,但大模型已经占先,行业惯性让创新仍集中在大模型,转型未必会真的降本增效。而在GPU调度中,通过优先调度小模型的低延迟请求,同时预留部分资源应对偶发的大模型调用,就能实现更优的。随后,选择合适的小模型,并匹配相应的GPU分配策略。
2025-08-29 19:53:12
83
转载 科学界论文高引第一人易主!AI站上历史巅峰
它以理解学习世界为核心目标,而非在世界中采取行动,通过透明化外部推理,对问题提供可验证的真实答案,“可用于加速科学发现、为Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解”。排在第二的就是三巨头2015年共同发表的《Deep learning》,这篇论文不仅系统总结了深度学习的发展历程,还深入剖析了其理论基础、核心算法和广泛应用,被视为深度学习领域的“圣经”。毕竟,当一个人的论文被全世界数十万次引用,或许就不仅仅只是学术荣耀那么简单,而更有可能代表了时代的注脚。
2025-08-26 15:01:04
64
转载 刚刚,Meta发布了全新开源视觉模型DINOv3
为了应对这一问题,研究团队提出了“Gram anchoring”方法,即通过将学生模型的patch Gram矩阵逼近早期训练阶段表现优异的教师模型的Gram矩阵,来保持patch间的相对相似性,而不限制特征本身的自由表达。最后,由于DINOv3在最初训练时使用了相对较低的分辨率(256×256),为了让模型适应高分辨率的图像场景,研究团队在训练后增加了一个“高分辨率适应步骤”,从而让模型在学会处理更大尺寸图像的同时,还能保持性能稳定。
2025-08-16 16:39:38
175
转载 就在刚刚,GPT-5正式发布!已达博士水平,人人都能免费使用!
看到日程后GPT-5可以自动进行一些助理级工作,比如发现未回复的邮件等。在语音对话方面,现在不仅可以让GPT-5充当外语老师,还能定制语音、让GPT-5根据你的需求来灵活教学,比如调整语速。在写作方面,GPT-5相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,GPT-5看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5可能有不同的执行结果。同时在API平台上,推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。
2025-08-08 09:23:43
107
转载 李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。
2025-07-24 17:09:48
101
转载 OpenAI创始人力推,火爆全网的Vibe Coding,国内第一本书来了!(免费送书)
本书凝结着他们深耕行业的观察洞见、躬身实践的经验沉淀与传道授业的教学智慧,堪称AI时代编程教育的思想结晶。然而,真正的变革需要让更多人了解并掌握这一创新方式,因而,他们合著了本书,希望通过系统化的知识梳理与清晰易懂的阐述,将Vibe编程的理念和方法传递给更广泛的群体。在过去的一年里,从记者到老师,从产品经理到家庭主妇,无数零编程基础的普通人正在用Vibe编程创造能解决实际问题的应用。你无须记忆烦琐的语法规则,也无须深陷复杂的代码调式,只需通过自然语言与AI对话,即可将脑海中的灵感转化为可运行的应用。
2025-07-24 17:09:48
94
转载 AI 大模型全套学习资料免费领取
包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。明确学习方向,2025年 AI 要学什么,这一张图就够了!【大厂 AI 岗位面经分享(107 道)】【24 套最新技术大会 AI 分享PPT】【AI 大模型面试真题(102 道)】【26 套 AI 大模型行业研究报告】【AI 大模型面试题 300 道】【LLMs 面试真题(97 道)】【AI学习路线图(2025版)】【GeekGI 知识库】扫码免费领取全部内容。
2025-07-21 08:41:02
65
转载 小作坊的强化之路
注意下图中的紫线,应该是在 no mask stage1 基础上做了 stage2 (更长 response_len)训练的模型,说明第一阶段学到的较短的 response 完全没影响模型的上限,第二阶段的 response_len 和 accuracy 仍然能稳步提升。(这里其实可以更细致的探究一下,两份数据的 response 多样性到底差别多大,比较一下 response 的熵的平均值,也许能给出一个近似的拟合公式:“熵在多大的区间内适合多大的 loss 系数”)。
2025-07-20 10:48:33
75
转载 一篇Graph+AI Agents最新技术综述
例如,A-MEM 通过动态索引和链接创建相互连接的知识网络,Zep 通过时间感知的层次化知识图谱引擎动态整合对话数据,HippoRAG 和 LightRAG 采用动态增量图更新策略,KG-Agent 引入 LLM 进行知识图谱更新,InstructRAG 采用 RL 代理进行图维护。:图技术帮助代理更高效地管理和调用大量工具,通过构建工具图和优化工具调用路径,减少令牌消耗,提高工具使用的准确性和效率。图用于人工智能代理:图和图学习在增强代理核心功能(包括代理规划、执行、记忆和多代理协调)中的作用和潜力。
2025-07-04 13:14:52
77
转载 干翻 GPT-4V 的面壁小钢炮,被《Nature》收录了!
此次论文提及的 MiniCPM-V 模型是面壁智能于 2024 年 5 月发布的端侧多模态大模型,该模型仅以 8B 小参数,在高分辨率图像识别、光学字符识别(OCR)、多语言交互、可信行为等方面展现了出色性能,创造了当时端侧模型中的最佳多模态综合成绩与最佳运行效率水平。今年 1 月,面壁智能再次全方位升级了模型能力,并延续以小博大、高效低成本的优势,发布了行业首个端侧全模态流式模型——面壁小钢炮 MiniCPM-o 2.6,「持续看、实时听、自然说」等多项关键能力均为业界首创,能力全面跻身国际领先水平。
2025-07-03 15:33:40
88
转载 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周期进行细粒度的管理,该团队提供了 Rollout 调度器,可以简化响应生成、环境交互和奖励计算之间的流程编排。
2025-07-01 17:02:13
143
转载 Doc2X: 高精度高性价比文档解析神器
Doc2X 提供 RESTful API 与 SDK 工具包,支持多种开发语言与框架,让您轻松将文档处理功能嵌入现有系统,方便快捷地实现将 PDF、扫描件、图片等多种格式的文档精准转换为 Markdown、LaTeX、HTML、Word 等结构化或半结构化格式的能力。当然,除了提供了快速集成的 API 之外,Doc2X 还提供了友好的操作界面,可以让你在页面上快速完成文档解析,解析完成之后可以对照着原文档进行编辑,确保准确性。接口轮询结果,使用的是阿里云的oss,具体速度取决于您的网速(
2025-06-24 13:59:26
674
转载 韦东奕参与项目被提名2025年度国家自然科学奖!
此外,在舆论喧嚣之外,其实专注学术的韦东奕近日与其他两位学者章志飞、邵锋合作在数学界顶级期刊《Forum of Mathematics, Pi(数学论坛,π) 》以“On blow-up for the supercritical defocusing nonlinear wave equation(超临界散焦非线性波动方程的爆破现象研究)”为题发文。28岁起,韦东奕开始担任北京大学助理教授。近日,在北京大学任教的韦东奕、网友熟悉的“韦神”发布视频和网友打招呼,其个人简介标注为“韦东奕本人账号”。
2025-06-19 16:09:33
148
转载 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。
2025-06-18 11:21:32
80
转载 Mamba与小目标结合!2025年论文新宠儿!
该框架结合了Siamese CNN网络和跨模态融合Mamba(CFM)模块,通过CNN提取多尺度局部特征,并利用Mamba的选择性扫描机制(SS2D)在四个方向上进行全局特征融合,实现了对密集分布小目标的高效检测。1)Mamba的视觉空间建模改进(比如双向扫描策略),2)多尺度特征融合的轻量化设计,3)与动态卷积的混合架构,4)针对小目标的序列化数据增强。设计了CFM模块,基于Mamba的选择性扫描机制,在四个方向上对多模态特征进行全局扫描和融合,显著提升了小目标的区分能力。
2025-06-10 08:14:33
888
1
转载 研究生期间买房买车的都是什么人
在读研期间,许多小伙伴都会面临的问题,就是只靠国家学业补贴,生活压力很大,又不好意思向父母开口。,目前全网粉丝关注量已接近150万人,共有2000多位论文指导老师,累计服务学员超10万人,现面向全体优秀硕博同学招聘。线上直播上课,构思数模培训计划,提供必要资料,比赛期间全程指导,提供答疑。研究生或准研究生以上学历,有核心或SCI等高水平期刊发表经验。有同学靠发表期刊的奖学金就能cover全部生活费,,主要是带学生做科研、写论文和进行竞赛培训等,全程。↑扫描二维码添加助理微信,即可报名↑。
2025-06-06 08:31:45
99
转载 训练MoE足足提速70%!华为只用了3招
针对Pangu Ultra MoE 718B模型,在单卡内存使用约束下,华为通过DeployMind以训练性能为目标找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),这一最适合昇腾集群硬件规格的并行方案,综合实现计算、通信、内存的最佳平衡。为解决这一问题,华为团队提出了一种精度无损的动态数据重排方案,其核心在于:通过线性模型量化单样本计算耗时,在严格保持训练精度无损下,批次内采用贪心算法构建最小化耗时的数据重排,实现负载均衡。感兴趣的小伙伴可以再通过完整技术报告深入了解——
2025-06-05 16:05:14
69
转载 半年时间拿到大厂offer,全靠这本《大模型算法》通关……
书中精心绘制超 100 张架构图,从大模型输入输出层的 Token 映射机制,到 PPO 算法的训练全景图,再到 DPO 核心代码逻辑拆解,用视觉化语言降低技术理解门槛,让抽象的数学公式与算法流程一目了然。全书以 LLM 为载体,但核心技术(如微调策略、对齐算法、解码优化)均适用于视觉语言模型(VLM)和多模态大语言模型(MLLM),帮助读者建立跨模态技术迁移能力,紧跟 AIGC、具身智能等前沿方向。大模型的预训练阶段门槛极高,但后训练阶段(微调、对齐、优化)才是开发者的主战场。
2025-06-05 16:05:14
103
转载 小米多模态大模型开源!MiMo-VL:通向Agent时代的推理基座!
MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用7B参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先10倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。在 RL 训练过程中,通过不断扩充训练窗口大小(32K->48K),MiMo-7B-RL-0530 的 AIME24 效果可以持续提升,并超过 DeepSeek R1。
2025-05-30 14:42:04
123
转载 阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。
2025-05-28 14:57:59
65
转载 Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。
2025-05-14 15:57:11
251
转载 给MCP加上RAG,工具准确率提升200%,起飞~
测试中,候选MCP服务器的数量从1增加到11100,每次试验中随机选择一个“真实”MCP(唯一能满足任务需求的工具)和若干干扰项(distractors)。:随着可用的MCP(Model Context Protocol)服务器数量增加,将所有工具描述包含在单个提示中会导致提示过长,消耗大量token,并降低模型区分和回忆正确工具的能力。:与传统MCP客户端相比,RAG-MCP仅激活选定的MCP,降低了启动成本,并支持任意大小的工具集,而无需担心基础设施瓶颈。:用户的自然语言任务被编码并提交给检索器。
2025-05-12 16:45:28
159
转载 再见Cursor!谷歌放大招刷爆AI编程榜!
在官方博客中,他们还表示:这个版本原计划在几周后的Google I/O大会上发布,但由于Gemini 2.5太受欢迎,于是决定现在发。就在前几天,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》,成为首个大模型宝可梦联盟冠军,直接打破了此前Claude的记录。此次更新的重点就在于编码能力,包括不限于改进前端和UI开发,以及基础编码任务(例如代码转换和编辑,以及创建复杂的代理工作流)。除此之外,它还增加了一些新功能,比如听写入门应用,只需说出你的想法,Gemini就能将创意变为现实。
2025-05-08 15:59:55
159
转载 RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」
为此,研究团队人工检查了基座模型正确答案的 CoT 推理过程,发现对于大部分题目,基座模型在多次采样中至少存在一个 CoT 推理过程是正确的,从而确认了答案的得出符合逻辑而非随机蒙对。这篇工作刷新了 AI 圈里的「普遍认知」:此前各类基于 RLVR 做后训练的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。灰色表示模型不太可能采样的路径,黑色表示模型更可能采样的路径,绿色表示能获得正向奖励的正确路径。
2025-05-05 15:43:55
233
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅