大模型
文章平均质量分 85
大模型星球
SCI/论文带读/本硕博毕业论文/中文核心期刊/EI会议/期刊/顶会发刊论文指导
文章相关资源可关注V.X【服务号】:AI技术星球 发送:211C 自取
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
万字拆解:Agent 到底是什么? 有哪些使用场景
摘要:Agent(智能体)正从被动应答转向主动执行,重塑人机协作方式。其核心由四大组件构成:大脑(LLM)负责决策、技能(Tools)实现行动、记忆(Memory)保持连贯性、规划(Planning)拆解任务。文章详细阐述了Agent在产品研发、运营增长、客户服务和企业流程中的落地场景,通过自动化PRD生成、智能客服、跨系统协同等应用实现效率提升。同时指出当前存在成本、可靠性、安全性和维护复杂度等挑战,呼吁从业者以"智能体优先"思维重构业务流程,建议从具体场景切入实践,在生产力革命中抢占原创 2025-11-20 11:23:53 · 1071 阅读 · 0 评论 -
一图搞懂深度学习:多模态学习如何像人一样理解世界?
《多模态学习:AI的"巴黎浪漫感知"之旅》 摘要:通过人类感知巴黎的生动类比,本文形象揭示了多模态学习的核心原理:1)多源输入:AI同步处理图像、文本、音频等多元信息;2)跨模态协同:建立不同模态间的语义关联;3)特征编码:将异构数据转化为统一表征;4)对齐校验:确保多源信息的一致性;5)决策融合:加权整合各模态特征;6)综合输出:生成比单模态更丰富的理解。整个过程如同游客用视听触觉全方位体验巴黎,最终AI也能像人类一样,通过"感官协同"获得对世界的立体认知。原创 2025-11-05 18:37:53 · 842 阅读 · 0 评论 -
又登1区!多模态深度学习发文大道果真宽又阔啊!
多模态深度学习是目前AI领域的热点研究方向,尤其在医疗诊断、情感分析等应用场景表现出色。该领域学术热度高,创新空间大,开源资源丰富,具备"入门有路径、创新有空间、成果易落地"的特点。核心优势在于跨模态融合的天然创新属性和产业需求驱动,但也面临跨学科门槛、数据算力成本等挑战。高效出成果的关键在于选对细分赛道(如医疗影像融合),聚焦单一环节创新(如优化跨模态注意力机制),并借助现有框架快速验证。该领域成果兼具理论价值与应用潜力,是当前高性价比的论文产出方向。原创 2025-11-04 17:57:09 · 886 阅读 · 0 评论 -
MiniMax发布全新大模型M2,综合能力直逼GPT-5
中国AI独角兽MiniMax发布新一代开源大模型MiniMax-M2,在权威测评中位列全球前五、开源第一,性能媲美OpenAI和谷歌等巨头。该模型在速度上超越ClaudeSonnet4.5近一倍,价格仅为其8%,打破了智能水平、速度和成本的"不可能三角"。目前模型已开源并限时免费,旨在推动AI普惠化。其卓越表现获得海外科技界认可,被视为中国AI企业以"高智能、低成本"策略冲击全球AI格局的重要突破。原创 2025-10-28 17:58:28 · 948 阅读 · 0 评论 -
彻底搞懂深度学习-强化学习和智能体(动图讲解)
本文探讨了强化学习与智能体的区别及联系。强化学习是一种通过试错和反馈来优化决策的方法论,而智能体则是一个完整的自主系统架构。两者可独立存在,也可结合形成强化学习智能体。随着大语言模型的发展,出现了基于LLM的新型智能体,它以语言为通用接口,主要分为对话式、任务导向型和多智能体协作系统三种模式。传统智能体和LLM智能体各有优势,适用于不同场景:前者适合精确控制和实时反应,后者擅长自然语言交互和快速开发。未来AI系统将根据需求灵活选择或结合这两种技术路径。原创 2025-10-15 16:50:36 · 505 阅读 · 0 评论 -
吃透AI新一波高薪红利,你只差这一块拼图(大模型LLM)
【摘要】随着AI技术的快速发展,大模型岗位需求激增,传统开发者的技能面临转型挑战。国务院近期发布政策推动AI应用落地,企业大模型岗位招聘指数高达94.16,显示AI技术已成为程序员必修课。转型成功案例表明,原有开发经验结合大模型实战能力是关键。系统化学习+商业项目实战的培训模式,能帮助开发者将传统经验转化为AI竞争力。当前技术浪潮不是短暂机会,而是职业发展的必经之路,传统开发者需用大模型思维升级技能栈,在新领域找到不可替代的位置。(150字)原创 2025-10-11 18:18:36 · 390 阅读 · 0 评论 -
Sora 2:AI 视频的 GPT-3.5 时刻,正在重构创意世界的规则
AI视频生成迎来重大突破,OpenAI推出Sora2实现三大技术飞跃:物理仿真精度提升72%,实现真实世界物理规律模拟;音画同步误差小于3帧,支持多语言语音和情感化音效;"世界状态记忆"技术确保多镜头连贯性。配套SoraApp构建社交创作生态,支持数字分身植入和IP授权,广告、影视等行业面临重构。该技术将专业级创作门槛降至大众级别,开启"创意平权"新时代,目前已在美加开启测试,同时强化了内容安全机制。原创 2025-10-11 17:41:01 · 1033 阅读 · 0 评论 -
错过这本AIGC书,相当于少走半年弯路!
《一本书读懂AIGC》全面解析ChatGPT、AI绘画等AIGC技术,从基础操作到行业应用,涵盖Prompt设计、绘画参数调试等实用技巧,半小时即可生成专业作品。书中不仅讲解技术使用,还深入探讨AIGC对生产力、智能文明的影响及伦理问题,适合零基础读者快速入门。2023年AIGC爆发之际,本书是职场人、创业者把握AI时代的实用指南,让读者轻松掌握AI技术,发现AI应用的无限可能。原创 2025-10-09 16:26:57 · 231 阅读 · 0 评论 -
读完《大语言模型提示工程》,终于摸清 LLM 高效输出的 “密码”!
《Sanet.st_PromptEngineeringforLLMs》是一本关于优化大语言模型(LLM)提示设计的实用指南。书中强调"提示设计逻辑"的重要性,提出"角色设定+任务指令+约束条件"的黄金三角结构,可显著提升AI输出的精准度。作者指出常见误区如冗长提示会稀释核心指令,并针对不同LLM提供适配技巧。该书适合从新手到资深用户,提供了一套可落地的框架,帮助用户将LLM从"会说话"转变为"会做事"的高效工具。原创 2025-10-09 16:15:56 · 258 阅读 · 0 评论 -
大模型新手必备AI基础有哪些?AI基础知识、Hugging Face 工具库等
摘要:大模型学习需要扎实的AI基础,主要包括四大模块:1.数学理论(线性代数、概率统计、最优化理论);2.机器学习核心(数据划分、性能评估、经典算法思想);3.深度学习基础(神经网络组件、Transformer架构);4.编程工具链(Python、PyTorch、HuggingFace等)。建议学习路径:先补数学基础,再学机器学习思维,深入理解Transformer架构,最后通过实践项目巩固。掌握这些基础后,才能更好地理解大模型原理并进行后续研究开发。原创 2025-09-23 17:19:38 · 851 阅读 · 0 评论 -
人人都要学的AI大模型全栈学习路线
AI大模型已成为各行业智能化转型的核心驱动力,从金融风控到工业质检,大模型正深度赋能企业场景。本课程为零基础学员提供从理论到实践的完整学习路径,涵盖Transformer、LLM等核心技术及26+实战项目,助力产品经理、程序员等职场人群掌握大模型应用能力。课程突出三大优势:专家直播教学、20+行业案例拆解、私人化模型部署,帮助学员成为AI解决方案专家,把握薪资增长新机遇。在AI应用爆发初期,掌握大模型技术将成为职业发展的关键竞争力。原创 2025-09-23 15:43:45 · 1209 阅读 · 0 评论 -
李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
斯坦福教授李飞飞创立的WorldLabs发布空间智能模型Marble预览版,支持通过单张图片或文本生成持久可导航的3D世界。该模型突破性在于:1)生成规模更大、风格多样的3D场景;2)支持无缝导出高斯点云用于二次开发;3)允许拼接多个场景构建宏大环境。目前免费开放测试,用户可通过白名单申请体验。相比谷歌Genie,Marble强调生成世界的永久性和自由探索特性。开发者赞赏其大规模3D生成能力,同时期待进一步提升细节表现。原创 2025-09-22 15:22:20 · 436 阅读 · 0 评论 -
彻底搞懂深度学习-基于知识图谱的多模态推理(动图讲解)
《基于知识图谱的多模态推理:AI如何像人类一样"看懂"与"想通"》 摘要:本文探讨了人工智能如何通过知识图谱实现多模态推理能力。知识图谱以三元组形式存储事实、常识和情境知识,为AI提供认知基础;多模态推理则让AI能同时处理图像、文本等信息并进行逻辑推理。技术架构包含知识图谱嵌入、跨模态注意力机制和多步推理链构建三个关键环节,使AI不仅能识别场景元素,还能理解其内在关联。这种结合代表了AI从模式识别向智能理解的重要跨越,未来有望实现更接近人类的认知能力。原创 2025-09-18 14:21:42 · 933 阅读 · 0 评论 -
DeepSeek R1论文经过同行评议登上Nature封面,梁文锋作为通讯作者再次创造历史
《DeepSeek-R1》论文登上《Nature》封面,成为首个通过同行评审的具有全球影响力的大语言模型(LLM)。该模型采用强化学习方法提升推理能力,训练成本仅29.4万美元(基础模型600万美元),远低于业界预期。R1在HuggingFace平台下载量达1090万次,其创新技术"纯粹强化学习"和"组相对策略优化"推动了AI领域发展。研究团队回应了关于可能使用OpenAI模型输出的质疑,强调其独立性。专家评价R1在性能与成本平衡方面表现突出,并认为其方法论将引发广泛原创 2025-09-18 14:07:44 · 547 阅读 · 0 评论 -
2025最新大型推理模型(LRM)强化学习(RL)综述(114页)
这是一篇关于 “大型推理模型(LRM)强化学习(RL)” 的综述,简单说就是告诉大家:怎么用强化学习让大语言模型(比如 ChatGPT、文心一言这类)变得更会 “思考”,能解决数学、编程、医疗这些复杂问题,还梳理了现在的技术、难题和未来方向。原创 2025-09-15 16:14:57 · 1347 阅读 · 0 评论 -
共享即关怀:通过集体强化学习经验共享实现高效语言模型后训练
Gensyn团队提出SAPO算法,通过去中心化协作实现语言模型高效后训练。该技术突破传统RL训练的三大困境:1) 构建异构计算节点组成的swarm网络,每个节点独立训练;2) 创新性采用"经验共享"而非参数同步机制,降低通信成本;3) 在数学推理等任务验证中,4本地+4外部经验配比使模型性能提升94%。实验表明,该方案可使消费级硬件以1/20成本达到接近GPU集群的效果,为AI民主化提供关键技术支撑。未来将拓展至多模态领域,推动全球协作的"集体智慧创造"范式。原创 2025-09-15 15:18:54 · 955 阅读 · 0 评论 -
斯坦福李飞飞 《AI Agent:多模态交互前沿调查》 真的太清晰,看完直接硬控我3h
李飞飞团队提出多模态智能体"感知-认知-行动-学习-记忆"五模块架构,突破传统AI被动模式。该架构融合大语言模型与视觉语言模型,使智能体具备环境交互和持续进化能力。论文详细阐述了基础模型代理化的技术路径,包括预训练阶段的领域随机化和微调阶段的"LLM+VLM"双引擎架构。多模态融合技术显著降低模型幻觉率,在医疗、游戏等领域展现应用潜力,但需平衡技术价值与伦理风险。研究为从工具性智能向认知性智能跨越提供了理论框架,被视为智能体技术发展的重要里程碑。原创 2025-09-13 16:49:27 · 778 阅读 · 0 评论 -
如何通过Dify将RAG检索召回率提升至 90%
摘要:通过Dify优化RAG检索召回率至90%,需聚焦数据预处理、检索策略和模型集成。采用动态分块与混合检索策略,配置多语言嵌入模型和重排序算法,结合查询意图增强与元数据过滤。通过A/B测试持续迭代,优化分片和缓存提升性能。某企业案例显示,该方案可将召回率从65%提升至91%,响应时间缩短66%。核心在于分块适配文档类型、动态调整检索权重,形成检索-生成闭环优化。原创 2025-09-12 16:48:39 · 818 阅读 · 0 评论 -
六大AI模型组合方向结合好出论文:小波变换、多模态大模型、计算机视觉、transformer、CNN、LLM
本文总结了人工智能领域六大创新模型组合方向及其研究价值:1. Transformer+CNN实现全局-局部特征互补;2. 多模态+生成模型构建跨模态生成范式;3. 自监督+多模态提升小样本学习能力;4. 小波变换+Transformer增强频率域建模;5. 动态网络+轻量化模型优化计算效率;6. LLM+计算机视觉实现多模态智能交互。研究显示,这些组合通过创新架构设计(如交互自注意力、动态路由等)在多个领域达到SOTA性能,其中多模态生成、混合架构和自监督协同成为当前顶会论文的三大热点方向。原创 2025-08-12 16:51:11 · 1475 阅读 · 0 评论 -
一文弄懂扩散模型diffusion models
生成式人工智能(Generative AI)是当今最受关注的热门术语之一。近年来,涉及文本、图像、音频和视频生成的应用不断增加,呈现出一股蓬勃发展的趋势。在图像创作方面,扩散模型(diffusion models)已成为内容生成的前沿技术。虽然它们最早在2015年被提出,但经过不断的创新和发展,如今已成为诸如DALLE、Midjourney等知名模型的核心机制。什么是扩散模型?为什么扩散比自回归效果更好?stable diffusion原理精讲+代码实现,Diffusion Model。原创 2025-06-19 10:55:22 · 1016 阅读 · 0 评论 -
知识图谱入门:从概念架构到实践应用
知识图谱(Knowledge Graph)是一种用表示现实世界中实体及其关系的知识模型,核心是将离散的信息转化为关联的语义网络,让机器具备 “理解” 世界的能力。资料包:一、 人工智能学习路线及大纲二、计算机视觉OpenCV【视频+书籍】三、AI基础+ 深度学习 + 机器学习 +NLP+ 机器视觉 教程四、李飞飞+吴恩达+李宏毅合集五、自动驾驶+知识图谱等资料六、人工智能电子书合集【西瓜书、花书等】七、各阶段AI论文攻略合集【论文带读/代码指导/本硕博/SCI/EI/中文核心】原创 2025-06-16 11:59:52 · 1102 阅读 · 0 评论 -
「Next-Token」范式改变!刚刚,强化学习预训练来了
RPT 将传统的对 next-token 的预测任务重构为对 next-token 的推理过程:对于预训练语料中的任意上下文,模型需在预测前对后续 Token 进行推理,并通过与语料真实的 next-token 比对获得可验证的内在奖励。另一方面,可验证奖励的强化学习 (RLVR) 利用客观的、基于规则的奖励,这些奖励通常来自问答对。最后,预训练期间的内部推理过程允许模型为每个预测步骤分配更多的思考(计算资源),这类似于将推理时间扩展能力提前应用到训练过程中,从而直接提升下一 Token 预测的准确性。原创 2025-06-11 16:02:59 · 827 阅读 · 0 评论 -
中南大学开发DeepDTAGen:用于药物靶标亲和力预测和靶标感知药物生成的多任务深度学习框架
药物选择性分析表明,DeepDTAGen 的亲和力预测与药物和靶标之间的生物学相关行为相一致,其中根据亲和力概况从每个数据集中选择两种药物:一种药物与不同靶标的亲和力变化很大,另一种药物与其靶标的亲和力水平一致。在最新的研究中,中南大学、赫尔辛基大学(University of Helsinki)的研究人员开发了一个新的多任务学习框架 DeepDTAGen,该框架可以预测药物-靶标结合亲和力,并同时生成新的靶标感知药物变体,并利用这两项任务的共同特征生成新型药物。」研究人员在论文里表示。原创 2025-06-10 14:40:36 · 643 阅读 · 0 评论 -
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
近年来,大型语言模型(LLMs)在多模态任务中取得了显著进展,在人工通用智能(AGI)的两大核心支柱(即理解与生成)方面展现出强大潜力。与传统的自回归方法不同,FUDOKI 通过并行去噪机制实现了高效的双向信息整合,显著提升了模型的复杂推理和生成能力。与离散扩散架构相比,FUDOKI 采用更加通用的概率路径建模框架,从均匀分布出发,允许模型在推理过程中不断更新和修正生成结果,为多模态模型打开了一条崭新的技术路径。没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文。原创 2025-06-10 14:29:58 · 538 阅读 · 0 评论 -
创新点+1 仅需一行代码即可提升训练效果!
在这篇文章中只做了一个出人意料的简单调整,作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说,建议只应用与当前梯度一致的更新,使更新更稳定,并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度,大致梳理了下内容,一起看看。原创 2025-05-23 13:59:27 · 334 阅读 · 0 评论 -
Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限
1、能力来源(source)语言模型的推理能力 = f(模型架构, token量, 训练数据多样性, 泛化能力)2、RL的作用(作用机制)RL ≈ 一个奖励驱动的路径偏移器• 将已存在于模型分布中的推理路径偏移为更高 reward 的选项• 提高成功率,但不生成新“知识”或“能力”3、提升路径(有效方向)想要获得新的 reasoning 能力 ≠ 强化训练需要更强的知识/经验(知识注入+架构优化+认知行为引导)RL不是创造能力,而是优化选择。原创 2025-05-22 17:28:32 · 741 阅读 · 0 评论 -
图解AI三大核心技术:RAG、大模型、智能体,大模型算法工程师
文章详细介绍了Transformer和混合专家(MoE)两种深度学习架构的差异,包括模型结构、工作原理、性能、计算资源与训练难度以及应用场景。Transformer以其自注意力机制在自然语言处理任务中表现出色,而MoE通过组合多个专家模型处理复杂任务,具有较好的泛化能力。此外,文章还探讨了五种大模型微调技术,如LORA及其变体,以及传统RAG与Agentic RAG的对比,智能体设计模式和文本分块策略。这些内容为Java开发者提供了全面的学习指南,帮助他们在AI大模型领域实现职业转型。原创 2025-05-20 21:08:07 · 865 阅读 · 0 评论 -
Java转行大模型工程师必看AI大模型零基础到商业实战全栈学习路线
人人都要学的AI大模型全栈课》,包含26+真实项目-案例实战演示、24+动手实践、4+原创项目部署大模型,从理论到实践,我们都将给予最大程度的支持,课程学习的目标是,可达到应聘大模型岗位的要求和标准,同时,也能完整掌握AI方面的技术技能,为自己的职业方向赋能。【终于有人讲透大模型工程师自学路线了】别再学乱七八糟的教程了,构建专属大模型!提示工程、 LangChain/NLP/神经网络/数据预处理/LLM生成模型。原创 2025-05-20 16:03:06 · 1135 阅读 · 0 评论 -
大模型入门指南 - Prompt Engineering:小白也能看懂的“提示词工程”全解析
通过身份设定框定AI的思考边界,让输出更专业。用于规避通用型废话,提升行业针对性,适用场景:法律文书生成、医疗报告撰写、营销文案创作。【角色】你现在是拥有10年经验的母婴电商运营【任务】分析2024年Q3纸尿裤销售数据【要求】用小红书爆款笔记风格总结增长亮点。原创 2025-05-19 19:50:29 · 879 阅读 · 0 评论 -
大模型入门指南 - MoE:小白也能看懂的“模型架构”全解析
随着国产模型DeepSeekMoE、Qwen-2.5 Max、国际标杆GPT-4的实践验证,MoE已成为下一代大模型的核心架构。路由器(Router)输出概率,用于混合专家(MoE)模型选择最佳匹配专家(Expert),选择的专家(Expert)也是一个前馈神经网络(FFNN)。混合专家(MoE)模型的路由器(Router)是什么?MoE模型:可以堆叠1000个专家,但每次只激活10个(“脑容量”飙升,耗电量不变)。稠密模型:参数越多,计算越慢(“脑容量”和“耗电量”同步增长)。(2)专家越多,能力越强。原创 2025-05-19 19:43:34 · 466 阅读 · 0 评论 -
大模型入门指南 - Fine-tuning:小白也能看懂的“模型微调”全解析
通用模型可能生成“看似合理但错误”的答案(如法律条款引用错误)。微调通过损失函数设计(如增加法律条款一致性约束),让模型输出更符合领域逻辑(如引用《民法典》第X条)。(如法律需判例库),而非通用文本。数据需“小而精”,而非“大而杂”。例如,1000条标注的法律案例数据,可能比100万条通用文本更有效。微调:注入领域专属知识(如医疗术语、金融逻辑),使模型具备特定场景下的专业能力。预训练模型:已在大规模无标注数据上学习通用特征(如语言规则、物体识别)。原创 2025-05-19 19:36:14 · 670 阅读 · 0 评论 -
惊爆!调参黑科技曝光,导师为何刻意隐瞒?错过再等一年
当你深入深度学习,调参却成 “拦路虎”。学习率、权重系数等参数稍调不对,模型就 “罢工”,最优参数组合更是难寻。花大量时间调参,模型准确率却 “原地踏步”,过拟合、欠拟合还常来捣乱,不禁让人感叹:调参咋这么难?神经网络架构复杂,参数设置变化无穷,尝试新组合不仅耗费资源,效果还不理想,调参痛点亟待破解。今天就和大家好好聊聊调参这件事。本章节内容颇为丰富,我们会以多篇文章的形式,逐一展开讲述。接下来,为大家呈现关于深度学习调参指南的内容导图。在正式开始之前,我把我们整理的。原创 2025-05-17 15:40:59 · 968 阅读 · 0 评论 -
用AI写代码,怎么问问题啊!?大模型、机器学习入门到实战
别让大模型成你的遮羞布!90%开发者被AI坑在『不会问问题』一位高级工程师描述,他有次带人用AI优化SpringBoot接口,实习生兴奋地说:“大模型生成CRUD这样的基础内容太强了!根本就不用人来干预。”但我注意到生成的代码缺少事务管理,问他为什么不用@Transactional注解,实习生居然反问:"那个注解是干什么的?原创 2025-05-17 11:22:10 · 626 阅读 · 0 评论 -
揭秘 Transformer 用 PyTorch 实现全过程,附 200 个 AI 实战案例免费领!
在深度学习的广阔宇宙中,Transformer 架构无疑是一颗耀眼的明星。它凭借其强大的并行计算能力和出色的序列建模能力,在自然语言处理、计算机视觉等众多领域取得了卓越的成就。今天,我们将一起探索如何使用 PyTorch 来实现 Transformer 架构,为你的深度学习之旅增添新的动力!2025年Transformer必学:从零详解VIT、DETR、Loftr、BEVFormer、DeformableDetr一口气学爽。原创 2025-05-10 10:49:54 · 1000 阅读 · 0 评论 -
LoRI比Lora精简95%参数的同时,实现更强性能,Lora到底有多少参数是冗余的?
马里兰大学和清华大学的研究团队提出的LoRI技术,犹如一把精巧的瑞士军刀,以惊人的95%参数削减,不仅解决了资源消耗问题,更在多任务协同和持续学习方面展现出非凡潜力。以 Llama-3-8B 和 Mistral-7B 作为基础模型,他们的结果表明,LoRI 达到或超过了全量微调(FFT)、LoRA 和其他 PEFT 方法的性能,同时使用的可训练参数比 LoRA 少 95%。通过使用固定的、随机初始化的投影 A,LoRI 将任务特定的适配器映射到近似正交的子空间,从而减少合并多个 LoRI 时的干扰。原创 2025-05-09 16:10:56 · 1263 阅读 · 0 评论 -
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
另一个值得注意的现象是,随着模型大小的增加(从 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,这凸显了 TTRL 的自然扩展行为:更大的模型可以在自我改进过程中产生更准确的多数投票奖励,从而更有效地学习新数据。值得注意的是,虽然 TTRL 仅依靠 Maj@N 指标进行监督,但其表现不仅能持续超越初始模型的性能上限,更能接近于那些直接在有标注测试数据上进行监督训练的模型性能。在 RL 中,奖励通常是模糊的,主要是作为探索的方向信号,这导致了 RL 对奖励噪声的鲁棒性。原创 2025-04-25 19:39:17 · 1008 阅读 · 0 评论
分享