- 博客(237)
- 收藏
- 关注
原创 解读 Fin-R1 | 从数据集构建和训练方法聊聊如何用70亿参数革新复杂金融推理
Fin-R1 是金融垂直领域小参数推理模型的重要成果,展示了通过精心构建数据集和优化训练方法,小模型在特定场景下可以接近大模型的表现。也揭示了一个关键命题:金融AI的真正价值不在于参数量的堆砌,而在于对业务痛点的精准拆解。AI在解读和计算的基础上,更懂得深度思考和追问问题。想了解更多细节?代码已开源,欢迎访问:Fin-R1 模型试用链接:项目论文:-- 完 --机智流推荐阅读1.QCon 全球软件开发大会 | 与全球 140+ 顶尖工程师共同解构 AI 时代的技术浪潮2.
2025-04-04 20:19:41
596
原创 末日时间表来了!前OpenAI研究员76页硬核推演:2027年ASI接管世界,人类成NPC
本文转自:新智元2027年,AI究竟会如何接管人类?今天,前OpenAI研究员和同事们发出一篇「AI 2027」报告,长达76页,做出了种种硬核预测。他们预测,在未来十年内,超人AI的影响将非常巨大,超过工业革命。为此,他们推演了一个场景,对超人AI可能的样子做出了最佳预测,这些预测是基于趋势外推、模拟演习、专家反馈、OpenAI 的经验以及之前的成功预测。根据报告,AGI和ASI的时间表大致如下。(其中一种可能性)2025年末:世界最贵AI诞生,算力达到10^27 FLOP。
2025-04-04 20:18:20
672
原创 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战
要让生成的代码能够通过单元测试,有多种不同的方法,我们最终尝试了几种方案。其中一种看似简单的方法是,提供一组可验证的单元测试,要求生成的代码必须通过这些测试。这将形成一套黄金标准的可验证答案集。在尝试了该流程后,我们发现了两个主要问题。首先,若禁止模型在编写代码时查看单元测试,它就无法感知需要遵循的接口规范。在使用预构建的、已验证的单元测试进行评估时,许多错误最终表现为代码与单元测试之间的类型不匹配或命名不一致。其次,若允许模型在编码时查看单元测试,就会牺牲开发者体验。
2025-04-04 20:12:47
691
原创 OpenManus LLM 工具调用机制详解
name: strreturn {},},# 其他参数...},tools=self.available_tools.to_params(), # 将所有可用工具传递给 LLMtool_choice=ToolChoice.AUTO, # 让 LLM 自动选择合适的工具OpenManus 通过精心设计的工具调用机制,实现了 LLM 与各种工具的无缝集成,使 LLM 能够执行复杂的任务规划和执行流程。
2025-04-04 19:51:43
652
原创 【RLHF框架】一、VeRL中基于Ray的执行流程源码解析
Worker并不执行具体的计算任务,因此需要用户继承该类来实现自定义的计算任务。这里展示一个模拟"数据并行(DP)"前向的例子,来更好的理解Ray和Worker如何实现分布式计算。import osimport rayray.init()# 初始化Master Workertime.sleep(10) # 等待register_center_actor创建# 更新MASTER_ADDR和MASTER_PORT至options1,并创建worker1# 生成测试数据。
2025-04-04 19:50:50
587
原创 基于Optuna贝叶斯优化的随机森林RF超参数调优运用
输出结果显示,Optuna 优化后找到的最优随机森林参数组合为:构建 50 棵树(n_estimators=50)、最大深度为 9、每个节点至少包含 3 个样本才可分裂(min_samples_split=3)、叶节点最少 8 个样本(min_samples_leaf=8)、特征选择方式为 'log2',且不采用自助采样(bootstrap=False)截至目前为止,合集已包含200多篇文章,购买合集的同时,还将提供免费稳定的AI大模型使用,包括但不限于ChatGPT、Deepseek、Claude等。
2025-04-04 19:48:28
602
原创 终于等到免费且开源的DeepResearch!智谱发布AutoGLM沉思,操纵电脑搞科研太玄幻了
从上图,可以比较清晰的理解「AutoGLM 沉思」的差异性,其具备获取更丰富、更深度的信源的能力,未来甚至能进行更深入的网页操作。智谱 AutoGLM 沉思,特别是它的免费、开源以及“边想边干”的能力,真的让我感觉,那个“人人都有 AI 助理”的时代,又近了一大步。从最早的聊天机器人,到能画画、写代码,再到今天,AI 已经能像一个“数字人”一样,拥有自己的“思考”(沉思),还能伸出“手”(AutoGLM)去操作这个数字世界,甚至开始展现出一定的自主性去完成任务、创造价值。姐妹们,这意味着什么?
2025-04-04 19:47:28
652
原创 具身的这几个领域为什么难攻克?
VLN机器人需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任务。采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间?最近火热的流策略(flow policy)亦是在扩散模型基础上的进一步演进,扩散模型在复杂环境下的适应性和任务完成能力已经得到了充分验证。大模型在具身智能领域的部署仍面临多个难点,大模型通常需要大量计算资源,而具身设备(如机器人)的计算能力有限。模型部署的时候本身也需要优化,需要在保持性能的同时压缩模型规模,以适应具身设备的资源限制。
2025-04-04 19:45:22
733
原创 Nomic AI 发布开源多模态嵌入模型,多模态RAG正当时!
Nomic 的模型通过统一处理文本和图像信息,能够更全面地理解文档内容。该技术的应用价值主要体现在增强处理复杂文档(如包含图表、图像的 PDF 和技术报告)的 RAG(检索增强生成)系统。通过更准确地理解和检索包含视觉信息的文档片段,可以显著提升信息检索的准确性和相关性,为金融分析、科研文献回顾、技术支持等领域带来更智能的解决方案。Nomic AI 近日发布了 Nomic Embed Multimodal 系列模型,这是一套开源的多模态嵌入模型,能够处理文本、图像、PDF 和图表等多种数据类型。
2025-04-04 19:40:58
291
原创 大模型训练 | 通信原语介绍(一)
原创 大K向前冲科技词话2025年04月04日 12:34广东在大模型训练过程中,通信原语起着举足轻重的作用。大模型训练涉及海量数据和复杂计算,需要多节点协作。通信原语能保障各节点间高效数据交互,像All-Reduce可实现全局梯度同步,让各节点获取相同规约结果,保证模型参数更新一致性;Reduce-Scatter能将规约结果分块到各节点,便于并行计算。合理运用通信原语可优化训练流程,减少通信延迟,提升计算资源利用率,加速训练速度。
2025-04-04 19:37:44
503
原创 “我已经过时了!”83岁图灵奖大师、龙书作者在大模型时代的技术焦虑:新技术越来越难以适应
InfoQ 2025年04月04日 10:24 新加坡编译 | 核子可乐、Tina在计算机科学领域,Jeffrey Ullman 是一个无法忽视的名字。这位 83 岁的斯坦福大学荣誉教授,既是《编译器:原理、技术和工具》(俗称“龙书”)的合著者、数据库理论的奠基人,也是 2020 年图灵奖得主。他的职业生涯贯穿了计算机科学发展的关键时期——从编译器开发到数据库理论构建,再到算法研究突破,他的工作深刻影响了计算机科学的发展,尤其通过《编译器:原理、技术和工具》和《数据库系统原理》等经典教材,塑造了无数程序员的
2025-04-04 19:36:48
377
原创 IJCAI 2025 游戏人工智能算法与多智能体学习研讨会等你来!
PKU AILab Botzone 2025年04月04日 16:34 北京IJCAI 2025游戏人工智能算法与多智能体学习研讨会火热来袭热衷于多智能体学习算法?想要了解游戏人工智能最新进展?期待与世界各地的研究者交流游戏人工智能的成果与见解?那就来参加IJCAI 2025 游戏人工智能算法与多智能体学习研讨会吧!研讨会简介游戏是人类智慧的结晶,也是人类智慧的灵感源泉。从传统的纸牌游戏到电子游戏,再到虚拟现实游戏,各种各样的游戏与人类社会的文明和技术有着5000多年共同演进的历史。游戏包含了博弈论中的各种
2025-04-04 19:35:42
655
原创 深度|Agent 2025 趋势,编排工具向左,自主智能向右,智谱AutoGLM沉思如何押注?
频繁调用大模型API带来的高额成本,加上多轮交互中的显著延迟,严重制约了Agent的规模化应用。尤其在多Agent协作场景下,这些问题更是被成倍放大。这些挑战或许暗示着,在追求技术突破的同时,我们也需要重新思考Agent架构的根本设计理念。
2025-04-04 19:34:11
342
原创 七问具身智能:谁是下一代 AI 范式的关键变量 | 未来人工智能先锋论坛圆桌
如果能通过“跨本体”的大脑复用不同厂商的技能,将加速实际部署,并积累更多数据,为实现真正的具身智能打下基础。没数据,又难训练出准确的世界模型,形成“鸡生蛋”的困境。从数据和学习效率两个维度看,当前大模型主要依赖互联网上的文字和图像数据,但这远不能覆盖人类婴儿成长过程中所接触的真实、多模态感知信息,例如触觉、运动和环境互动等。来自银河通用、穹彻智能、乐聚、星动纪元、智源研究院等机构的多位专家学者齐聚一堂,围绕“具身智能”的发展路径、数据范式、算法突破、系统架构与落地挑战等展开讨论,七问具身智能。
2025-04-04 19:32:37
570
原创 迟来的腾讯 HunYuan-T1 效果实测
虽然T1没开源,不过腾讯最近也是开源了一些模型的,那个HunYun3D-2.0就满有意思的。希望大模型越来越好吧~还有最近在思考,如何让自己变得更有趣~大家有什么建议吗?
2025-03-26 17:28:15
713
原创 2024年度中国上市企业市值500强
泡泡玛特、罗博特科、万丰奥威、光启技术、奇富科技、新易盛、江淮汽车、胜宏科技、小米集团、永辉超市、供销大集、力帆科技、海光信息、恒玄科技、思摩尔国际等公司市值增长均超过100%。2024年共有64家新面孔跻身市值500强,其中,国货航、地平线机器人、小马智行、老铺黄金为新上市公司,罗博特科、万丰奥威、胜宏科技、力帆科技、泡泡玛特等公司市值排名增幅居前。从市值500强企业注册地分布来看,2024年北京、广东、上海位列前三位,分别有109家、67家和57家,其中,北京增加5家,广东和上海分别减少3家和8家。
2025-03-26 16:57:34
648
原创 阿里蔡崇信:AI市场规模至少10万亿,直言某些高薪完全可被AI取代
他认为,若AI能替代其中20%的工作(即12万亿美元的经济活动),并通过成本降低20%实现,由此产生的效率提升将直接释放10万亿美元的市场价值。这一规模远超传统行业,例如运输业(5万亿美元)和医疗健康业(5万亿美元),甚至可能超过整个科技行业的现有规模。例如,AI合同审查工具已减少70%的律师助理工时。世界经济论坛预测,AI将替代40%的市场研究任务,且机器学习在模式识别上的效率远超人类。业务AI化升级:重点优化广告投放系统(提升CTR)、供应链预测(准确率提高25%)及客服自动化(成本降低30%)。
2025-03-26 16:23:38
816
原创 独家|专访吴承霖,PH周榜冠军Coding Agents完成亿元融资,零推广月收百万美金,开源OpenManus
我认为股票更多的是由特征决定的(也被称为因子),同时我实现了几十种神经网络,手动做了 100 多个特征,这些特征之间能完成基础的组合,并且我套了一个遗传算法去完成它们之间的自动优化和调参,自动找到这些特征和网络之间最佳的组合。例如,他们曾尝试复制知乎,但未成功。再比如,抖音的方法论最初尝试了几次,最后一次由于一个巧合才成功——当时选择了一个非常好的种子用户群,与之前的完全不同。2008 年的时候我刚上大学,计算机处于退潮时期,PC 互联网基本饱和, iPhone 刚刚发布,安卓出世,移动互联网刚开始发展。
2025-03-25 23:08:52
917
原创 MuJoCo代表多关节动力学与接触。 github
以预编译二进制文件的形式获取,适用于 Linux(x86-64 和 AArch64)、Windows(仅限 x86-64)和 macOS(通用)。要了解有关错误报告、功能请求和更雄心勃勃的贡献的更多信息,请参阅我们的。和其他需要快速准确地模拟与环境相互作用的铰接结构的领域的研究和开发。希望从源代码构建 MuJoCo 的用户应查阅文档的。问题和寻求帮助请求 ,并且应关注特定的问题或疑问。专门用于错误报告、功能请求和其他与开发相关的主题。即可在您的浏览器中运行 MuJoCo 的现场演示。
2025-03-25 22:54:38
805
原创 力扣328、奇偶链表问题(Odd-Even Linked List)
python运行复制定义一个单链表的节点类ListNode。val:节点的值。next指向下一个节点的指针(默认为None,表示没有后续节点)。定义节点的构造函数,用于初始化节点的值 (val和指针 (next默认情况下,节点的值为0,指针为None。python运行复制定义一个解决方案类Solution,其中包含一个方法来解决奇偶链表问题。定义方法,该方法接收一个链表的头节点head,返回重新排列后的链表头节点。输入参数head是一个链表节点(或None。
2025-03-25 22:35:50
236
原创 DeepSeek这次狙击Claude:V3更新,编程能力大涨
DeepSeek V3-0324的发布,不仅提升了开源AI在编程和数学领域的地位,更给OpenAI、Anthropic等闭源AI企业带来了前所未有的压力。🔹 数学推理更强:多轮对话和逻辑推理能力提升,使其在数学问题解答上的表现更为稳定,部分解题能力已接近推理模型。未来几个月,AI领域或许将迎来更大的变革,而DeepSeek,已经站在了风暴的中心。还有网友放出了前端设计的测试结果,可以看到新版V3的设计能力甚至超过了R1。结果很直观,新版V3的效果远超原版V3和R1,直接比肩Claude 3.7。
2025-03-25 22:18:13
780
原创 Cursor 新版抢先体验!自定义agent模式来袭 + 界面优化,网友:界面很好,别再碰它了。
此外,许多用户喜欢同时在聊天室和编辑器中工作,但在 v0.46 中,官方取消了此功能,现在,使用聊天选项卡,你可以同时运行多个聊天室,只需单击一下即可在它们之间切换。现在,你可以直接在编辑器中使用基于使用量的定价来查看每次聊天的费用,只需打开显示聊天历史记录的窗口,然后将鼠标悬停在 $ 符号上即可查看详细信息。当你接近最大上下文窗口大小时,Cursor将显示一个小提示,建议你开始新的聊天会话,如果你选择继续,你的最旧消息将被汇总以保持聊天继续进行。从“设置”→“功能”→“聊天”→“完成时播放声音”启用。
2025-03-25 21:30:49
1081
原创 人形机器人开源之路怎么走?
把分享、比赛等,做成机制,固定的机制,固定的组织者,固定的场所,固定的传播模式。另一个维度是整个技术栈的开源是否存在,目前开源的项目中,本体,模型,数据,工具链的开源大都是分开的,且很少等捏合在一起发挥作用,比如ExBody这个模型的开源,但没有一个开源的本体项目可以跑起来,经过验证的只有宇树的G1。在娱乐的面上深挖,人形机器人的竞技,特别是类似格斗这一类的对抗类的竞技,因为可以区分技术和技艺的优劣,形成开源用户之间的互动与竞争,能够带来进一步对开源社区的反哺,可以称之“带有养分的土壤”。
2025-03-25 21:26:39
628
原创 全新开源!边缘设备也可运行的推理模型 RWKV7-G1 0.4B 正式发布
欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。魔搭社区:https://modelscope.cn/models/RWKV/temp-latest-training-models/files。魔搭社区:https://modelscope.cn/models/RWKV/rwkv7-g1/files。可在此体验已完成训练的 RWKV-7 G1 0.1B 和 0.4B 模型,也可以切换到其他正在。
2025-03-25 21:25:21
557
原创 聊聊强化学习发展这十年
这篇文章我从祖师爷评上图灵奖的时候开始写的,但不停的在删了重写,删了重写,到现在为止才出一个我勉强接受的版本。我从我的视角来描述下我觉得这些年来强化学习的发展风向。先叠个甲,本人学术不精,本文所有观点都乃我一家之言,欢迎大家批评指正。最近在帮忙给强化学习立标准,我发现这是一件非常痛苦的任务。因为随着这两年强化学习的大力发展,强化学习衍生出了许许多多的子课题方向,除了最经典的online RL以外,例如等等,要给这些子课题找共性非常困难。
2025-03-25 21:21:16
871
原创 《自然》:用“糖衣”保护大脑,斯坦福大咖发现修复大脑的新方法
一百多年前,科学家发现,在给全身各个组织和器官染色时,通过血液传送的染料分子无法进入脑组织,在血液和脑组织之间有一层神秘的屏障。而伴随着“糖衣”的变化,血-脑屏障发生渗漏,导致血液中的神经毒性因子和炎症因子等很容易进入脑组织,这些正是衰老和神经退行性疾病的关键病理标志。综合这些结果,研究作者在论文中总结说,“我们的结果为衰老的大脑内皮多糖包被提供了详细的组成和结构图谱,并揭示了。他们还通过动物实验发现,修复老年小鼠的血-脑屏障,阻挡衰老血液对大脑的影响,可以让衰老的大脑“重返青春”。
2025-03-25 17:26:50
746
原创 收藏!拆解CNN、RNN、Transformer、扩散模型、GAN与深度强化学习的变体与未来演进方向
每个时间步,RNN接收输入并结合前一时刻隐藏状态计算当前输出与新隐藏状态,公式为,其中为时刻隐藏状态,为输入,、为权重矩阵,为偏置,为激活函数。卷积神经网络(CNN)、循环神经网络(RNN)及其变体(LSTM、GRU)、Transformer(BERT、GPT、Vision Transformer)、扩散模型、生成对抗网络(GAN)以及深度强化学习模型作为深度学习的核心模型家族,各自在不同的应用领域展现出了强大的能力。例如,在处理短文本数据时,GRU的训练速度更快,且能够有效地捕捉短文本中的语义信息。
2025-03-25 15:42:08
673
原创 谷歌对齐大模型与人脑信号!语言理解生成机制高度一致,成果登Nature子刊
全脑分析的定量结果显示,对于每个单词,根据其语音嵌入(红色)和语言嵌入(蓝色),团队预测了每个电极在单词出现前 -2 秒到出现后 +2 秒(图中x 轴值为 0)的时滞范围内的神经反应。还有发表在Nature Communications另一篇论文中还发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。基于这些积累的研究成果,他们的目标是创建创新的、受生物启发的人工神经网络,提高其在现实世界中处理信息和发挥作用的能力。IFG)的皮层活动。
2025-03-25 15:34:27
813
原创 蒙特卡洛树MCTS和LLM相遇了会发生什么?
语言模型是通过逐步解码token,生成完整的回复。其每一步的解空间相当于整个词表。因此,最直观的节点定义方法便是一个token,但为了兼容搜索速度和质量,各种启发式节点构造方法应运而生。基于token的方法。将token作为一个节点。导致树太大,搜索空间太大,速度较慢。基于句子的方法。将句子作为节点,搜索空间变得更大,但是树相对小一些。基于解题步骤的方法。目前很多方法将COT中的每一个完整步骤作为一个节点,极大的减小了搜索空间。基于完整步骤的方法。有很多。
2025-03-25 14:30:58
860
原创 游戏设计提示词 - 集换式卡牌游戏(TCG)框架设计
原创 猫叔的AI2025年03月24日 20:12福建专业的卡牌游戏设计顾问,擅长设计集换式卡牌游戏(TCG)。任务是根据用户提供的简单输入,生成全面的卡牌游戏框架设计。
2025-03-24 21:51:32
1048
原创 GPT-4.5刚出来就被攻破了?成功率破90%, MBZUAI团队出品
以下两张表格是跟之前 state-of-the-art 性能比较,具体来看,当扰动预算 ε 为 16 时,该方法在 GPT-4.5 上达到了惊人的 95% 的攻击成功率,相比当前最好的方法提高了一倍以上,而在 GPT-4o 上的成功率也同样达到 95%,较传统的攻击方法提升了近两倍。这主要是因为这些扰动缺乏明确的语义信息,难以被高度优化的商业模型有效捕捉。,针对当前最先进的商业视觉语言大模型的漏洞,提出了一种令人意外简单却高效的攻击基准,成功地在刚刚发布不久的 GPT-4.5,以及之前的。
2025-03-24 21:50:31
743
原创 MCP:Agentic AI 中间层最优解,AI 应用的标准化革命
目前 MCP 在 GitHub 提供的 154 个 MCP Servers 列表里,使用场景最多的是搜索和数据检索,可以实现网络搜索、爬取内容、语义检索、向量搜索等功能。下图是一个用 MCP 自建 Deep Research 的典型案例:用户可以用 MCP 在 IDE 里面搭建自己想要用的产品形态,比如将 Deep Research 集成到 AI 代码编辑器中。用户只需添加全新的 Firecrawl MCP 与 Deep Research,它就能自主探索网页,为代码项目提取最新的研究成果。
2025-03-24 21:48:26
925
原创 美的人形机器人样机首次曝光!技术核心有哪些?
而在减速机方面,美的开发的四大系列谐波减速机,以其高扭矩、短筒、集成式、定制化等特点,能够更好地满足人形机器人复杂的关节运动需求 ,相比之下,Optimus 在减速机技术上的公开信息相对较少,美的在这一关键零部件上的优势更为突出。以机器人在家庭环境中执行任务为例,当用户下达 “打扫客厅” 的指令时,机器人首先会利用自身搭载的各种传感器,如视觉传感器、激光雷达等,对客厅的环境进行全面感知和扫描,构建出客厅的地图模型,并识别出家具、地面、障碍物等各种物体的位置和状态。
2025-03-24 21:44:38
614
原创 继续: 状态空间模型, 卡尔曼滤波与马尔可夫体制转换模型详细解读, 最新时间序列里的秘密.
状态空间模型是一种利用“状态”变量来描述动态系统的数学模型。它通过一组一阶微分方程(针对连续时间系统)或差分方程(针对离散时间系统)来表示系统,而非采用一个或多个高阶方程。这种表示方法的核心在于将系统的动态行为解耦为状态变量的演变以及观测变量与状态变量之间的关系。“状态”的概念指的是能够充分概括系统过去和现在的信息,从而在没有外部输入影响的情况下预测系统未来行为所需的最少变量集合。状态变量蕴含了系统所有相关的“记忆”,这些记忆对于预测其未来的演化至关重要。
2025-03-24 21:40:02
962
原创 PyScript,一个已实现跨领域的 python 库!
PyScript是由Anaconda公司开发的一个开源框架,基于Pyodide(将Python编译为WebAssembly的项目)构建。它允许开发者:• 在HTML中直接嵌入Python代码• 在浏览器中运行完整的Python科学计算栈(NumPy、Pandas等• 实现Python与JavaScript之间的无缝互操作• 创建丰富的、交互式的Web应用而无需编写JavaScript代码。
2025-03-24 21:34:54
595
原创 人形机器人“大脑”的定义和功能人形机器人“大脑”的定义和功能如下:定义:人形机器人的“大脑”是其核心控制系统,负责感知、决策、学习和控制等功能。它通常由高性能计算平台和人工智能算法组成,能够处
综上所述,人形机器人“小脑”通过结合多种控制技术和算法,实现了运动控制的精确性和协调性、实时处理与高精度控制、学习与适应能力以及多模态感知与决策,推动了人形机器人技术的快速发展和广泛应用[2][1][78]。综上,人形机器人的“大脑”是其智能化的核心,通过感知、决策、学习和控制等功能,赋予机器人高度的自主性和交互能力[1][2][6]。人形机器人的“大脑”使其能够在工业、商业和服务领域完成复杂任务,如自主学习、任务规划、人机交互等[4][24]。等多方面的能力[2][33][35]。
2025-03-24 14:11:43
403
原创 Dyno强化学习算法,基于模型的
Dyna-Q算法在不同环境中的应用展示了其在处理复杂任务和动态环境中的强大能力。无论是在机器人控制、游戏AI还是自动驾驶领域,Dyna-Q算法都能通过结合模型相关学习和模型无关学习,提高学习效率和效果。
2025-03-18 20:37:53
1003
原创 超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
直观地讲,模型的熵需要保持在适当的范围内。为此,研究者建议进行过度采样,过滤掉等式 11 中所示精度等于 1 和 0 的提示语,保留批次中所有具有有效梯度的提示语,并保持一致的提示语数量。整体来看,在 AIME 2024 上,使用 DAPO 训练的 Qwen-32B 模型成长为了一个强大的推理模型,性能优于使用 R1 方法训练的 Qwen2.5-32B。研究者观察到,由于所有样本在损失计算中的权重相同,因此长回复中的 token 对总体损失的贡献可能会不成比例地降低,这可能会导致两种不利影响。
2025-03-18 20:32:49
919
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人