- 博客(2628)
- 资源 (5)
- 收藏
- 关注

原创 Datawhale团队第三期录取名单!
Datawhale团队公示:Datawhale 组织成员Datawhale已经成立一年半了,从一开始的12个人,学习互助,到提议建立开源组织,做更多开源的事情,帮助更多学习者,也促进...
2020-09-23 21:17:58
2618
原创 提供免费4090!一杯奶茶钱灵活使用主流GPU算力
依托“多元异构、软硬协同”的核心技术优势,打造了连接“M种模型”和“N种芯片”的“MxN”AI基础设施新范式,实现多种大模型算法在多元芯片上的高效协同部署。中国最大的AI开源学习社区,以「for the learner,和学习者一起成长」为使命,覆盖全球 3000+高校,1000+企业,帮助了超过100万AI开发者学习成长。自发的开源项目体验、突发的小型训练任务、临时的模型验证工作,以及深夜赶进度的课题实验,很多时候对算力的性能、稳定性都有要求,但。,用多少算多少,训练10小时=一杯奶茶钱。
2025-06-18 22:00:38
77
原创 Datawhale正式启动AI案例招募,让每个案例背后的人被看见!
那么,在你的工作或生活中,AI 真的带来了哪些切实的改变?你的优秀案例将有机会在 Datawhale 公众号、社区、活动上展示,触达数上百万的 AI 开发者。让我们一起探索 AI 的无限可能,共同见证 AI 带来的实际价值!:案例必须是真实存在的、正在运行或已验证的 AI 应用,而非停留在理论或概念阶段。:案例能够体现 AI 在特定场景下的实际作用,具有可借鉴性或启发性。你的案例将成为宝贵的实践范例,启发更多人思考 AI 的实际应用与价值。:AI 在医疗、金融、教育、零售等垂直领域的创新应用。
2025-06-18 21:08:02
161
原创 最新豆包大模型发布!火山引擎推出Agent开发新范式
这背后需要具备强推理、多模态、低成本的强大模型,从而支撑起更复杂的 Agent,而 Agent 开发新范式也构建起了覆盖大模型开发全链路的工具矩阵,为开发者和企业提供从 Prompt 优化到 Agent 落地的一站式方案。面对这一变化,我们需要做的,正是理解并拥抱这种新范式,让自己的想象力在 AI 原生的沃土中开花结果。在这个 Agentic AI 元年,AI 云原生的新风已起,我们不妨大胆畅想:当 AI 不再是冰冷的指令执行,而成为有自主智能的数字劳动力,我们的软件世界将迎来何等蓬勃的生命力?
2025-06-17 22:58:27
588
转载 Muon作者仅用一篇博客,就被OpenAI看中了
关于在发论文和「速通技术」之间,Keller Jordan的看法依然和半年前一样,今日他转发了一则2月份的自己的推文,表示虽然Muon火了,也帮他进入了OpenAI,Keller Jordan的意思很明显,相比于arXiv上的一篇大概率被「淹没」的论文,还不如老老实实的继续研究自己的「优化器」。人工智能发展速度飞快,模型训练始终是其核心环节,而优化器则扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。但不幸的是,在学术界,激励机制有些错位。随后,又在维也纳复杂性科学中心担任访问研究员。
2025-06-17 20:05:00
8
转载 12万奖金,面向大模型的数据挑战赛来了!
本届赛事设置三大赛道:医疗大模型的隐私微调、密态大模型推理的隐私保护、以及基于全同态加密的最近邻选取(KNN),我们期待与社会各界共同探索数据要素领域的创新方向、应用场景与前沿技术,推动数据价值的安全释放与创新实践!为积极响应国家数据要素战略,加速相关领域数据的开发利用,2024年,蚂蚁密算与浙江大学网络空间安全学院携手举办了首届“隐语杯”大赛,并被国家数据局认定为首批获得“数据要素×”大赛全国总决赛推荐资格的第三方赛事。报名时间:2025年6月9日-2025年6月29日。密态大模型推理的隐私保护。
2025-06-16 22:26:48
14
转载 报名开启 | 6月21日 Google活动来杭州了
汇聚了全球顶尖的开发者与技术爱好者,共同探讨最新的技术趋势、产品发布以及开发者工具。这场盛会不仅展示了 AI、云计算、移动开发等领域的前沿技术,还为开发者们提供了宝贵的学习与交流机会。无论你是开发者、产品,还是对技术充满好奇的爱好者,这场活动都将为你带来全新的视角与收获!让我们一起在技术的海洋中遨游,感受社区的温暖与活力。停车:北门入口进,左拐可停地面车位,右拐可停地下车库,2元一小时。为了延续 I/O 的热度,GDG 杭州将于。:带你深入了解 I/O 的技术亮点。:与志同道合的技术爱好者面对面交流。
2025-06-16 14:28:22
17
转载 最新12种GraphRAG技术全面评测
不同的 GraphRAG 实现生成的索引图在结构上存在显著差异,例如 HippoRAG2 生成的图更为密集,节点和边的数量远超其他框架。:GraphRAG 在复杂推理、上下文总结和创造性生成任务中表现优于 RAG,但在简单事实检索任务中,RAG 的表现更好或相当。:在复杂推理和多跳任务中,GraphRAG 显著优于传统 RAG 方法,尤其是在需要深度上下文理解和逻辑推理的任务中。:GraphRAG 方法不仅提高了生成的准确性,还显著提升了模型的推理能力,使其能够生成更符合逻辑的解释。
2025-06-16 12:33:54
6
转载 影响全球程序员,黄仁勋:编程语言的未来是「Human」
AI的新问题是「自信地胡说八道」:它能生成看似真实的学术文章,但作者和期刊全是假的;没有操作系统、没有C语言、没有Java、没有Python、无需再学习算法和数据结构,只要你会说「Human」语言。每一个成功的界面——从编程语言、UI设计到API接口,最终都发展出了正式结构。人类语言灵活,效率高,哪怕说「拿那个东西」,别人也能理解上下文。未来你最应该学会的是如何用Human语言来和AI沟通——不论是中文、英语、法语、德语还是孟加拉语。我们有70年建立正式系统的经验,理解其中的规律,知道该往哪走。
2025-06-15 23:19:47
10
转载 行业落地分享:大模型在小红书推荐的应用!
在内容侧,小红书坚持平权分发的原则,确保每一个创作者的内容都有机会被看见,即使是粉丝数量较少的普通用户,也能获得足够的曝光机会。同时,系统会基于用户的行为反馈,实时更新笔记的向量表征,并通过 Bayesian Optimizer 自动调节提权系数,确保新笔记能够快速适应用户需求。这一阶段不仅考虑内容的相关性,还会兼顾内容的多样性,确保用户不会被单一类型的内容“刷屏”,同时也能探索到更多新的兴趣领域。这种机制不仅能够满足用户当前的兴趣需求,还能引导用户发现新的兴趣点,提升用户的参与度和平台的活跃度。
2025-06-15 13:32:47
25
转载 Google研究发现:Multi-Agent的核心竟然是Prompt设计!
在数学问题上,Gemini 1.5 Pro 对比仅使用自我一致性(SC)、自我细化(reflect)和多智能体辩论(debate)进行扩展的智能体,展示了每个问题的提示优化智能体的准确率与总标记数的关系。框架通过在可定制的多智能体设计空间中交错进行提示优化和拓扑优化,发现了有效的多智能体系统设计(右侧为经过优化的拓扑结构和优化的提示),关键组件如左侧所示。:Mass在优化过程中表现出稳定且有效的性能提升,与现有自动设计方法相比,具有更高的样本效率和成本效益。:在修剪过的拓扑空间中优化工作流拓扑结构。
2025-06-14 23:13:30
23
转载 刚刚,OpenAI正式发布o3-pro!
它总是向前看是垂直的,向后看是平坦的,但它是一条平滑的曲线。一千年前,一位自给自足的农民会看着我们许多人的所作所为,说我们所做的工作是虚假的,认为我们只是在玩游戏自娱自乐,因为我们拥有充足的食物和难以想象的奢侈品。另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。更多的人将能够创作软件,以及艺术。
2025-06-11 10:52:31
37
转载 消失的Ilya现身多大毕业演讲:AI时代如何生存,这是我的法则
我认为,仅仅通过使用AI,看看今天最先进的AI能做什么,你就能获得一种直觉。显然,我是说,据我所知,今天的AI已经相当大地改变了身为学生的意义。它足够好,让你可以想象:好吧,再过几年——有人说三年,有人说五年、十年,众说纷纭(预测未来有点难)——但无论快慢,AI肯定会持续进步。而且,在我还是多伦多大学的学生时,我们这里所做的AI研究是全世界最顶尖的,拥有最具革命性的想法和最激动人心的工作。但总的来说,通过关注AI的能力,当关键时刻到来时不忽视它,这将产生必要的能量,来克服AI将带来的巨大挑战。
2025-06-10 23:06:20
31
原创 20万奖金,面向大学生的大模型赛事来了!
聚焦大学生真实应用场景,如阅读写作、学术科研、求职就业等细分需求,鼓励大学生以用户视角深度参与,基于星火大模型开发兼具创新性与实用性的垂类大模型应用。在这场变革中,高校开发者勇立潮头,手握创新火种,以技术为笔,正参与描绘人工智能时代的新图景。参赛者可围绕阅读、写作、搜索、聊天、问答等方向,聚焦口语学习、面试招聘、论文写作、学习笔记等一个或多个细分应用场景。我们诚邀全球高校开发者:执代码之剑,扬创意之帆,借星火之光,共启星辰大海的创新征途。,聚焦大学生真实应用场景,征集基于星火大模型的垂直创新应用。
2025-06-09 22:54:38
213
原创 《Happy-LLM》完整PDF首发!一周2.3k+star的大模型“顶流教程”
1. 系统性硬核:7章内容从NLP基础到Pytorch手搓LLama2,再到手搓RAG和Agent,手把手教你“造”大模型!2. 授之以渔:不仅讲理论,更用代码还原每一步!GitHub star数量已经突破2.3k,催更我们都收到了,并在当天安排了制作。转发给 3 个好友,一起快乐学习大模型!从零开始的大语言模型原理与实践教程。成为大模型学习圈的“顶流教程”!成员宋志学、邹雨衡发起,旨在打造。读者催更,PDF版本开放下载。Datawhale开源。为Datawhale开源。PDF 正式开放下载,
2025-06-08 23:59:02
170
转载 李飞飞最新访谈:世界模型即将“降临”
她认为,人类智能的绝大部分都超越了语言范畴,语言在捕捉和描绘真实世界时是一种“有损的途径”,且其本质是“纯粹是生成性的”,自然界中本不存在固有的音节或词汇。他设想,如果将人带入一个房间,蒙上眼睛,仅凭口头描述去完成一项任务,其成功的可能性会非常小,因为语言描述对于传达复杂且要求高准确度的现实而言,是“极其不精确的”。从事的是非常前沿的硬核科技,我需要一位计算机科学家,一位人工智能领域的探索者,他要深刻理解产品、市场、客户以及市场推广策略,并且能够随时随地通过电话或面对面的方式,与我进行深度的智力交流。
2025-06-07 22:29:58
71
转载 新一届ACM博士论文奖正式公布!
其次,他研究了人机协作如何使自我指导的心理健康干预更容易获得、更容易参与,从而增强寻求支持的人的能力。通过一种基于强化学习的方法,并通过对来自最大同伴支持平台的 300 名同伴支持者进行的随机试验进行评估,他证明了基于 AI 的反馈可以帮助支持者在对话中更有效地表达共情。作者在论文中描述了他开发的两个支持心理健康和福祉的人机协作系统,以及此类系统的评估框架。在众多应用中,尤其是密码学领域,我们更需要一种稳健的计算限制,即存在某种特定任务,使得任何受限于低复杂度的算法都无法成功执行,甚至无法做出可靠近似。
2025-06-07 21:15:44
31
转载 Spring AI Alibaba 1.0 GA 正式发布!
在 Agent 生产落地过程中,用户需要解决智能体效果评估、MCP 工具集成、Prompt 管理、Token 上下文、可视化 Tracing 等各种问题,Spring AI Alibaba 通过与 Nacos3、Higress AI 网关、阿里云 ARMS、阿里云向量检索数据库、百炼智能体平台等深度集成,提供全面的智能体企业级生产解决方案,加速智能体从 Demo 走向生产落地。工作流的优势是确定性强,模型作为流程中的一个节点起到的更多是一个分类决策的职责,因此它更适合意图识别等类别属性强的应用场景。
2025-06-06 22:49:16
134
原创 百万奖金池+校招绿通车,金融科技AI顶尖大赛来了!
同时,也欢迎参赛项目根据自身研究方向、研究热点等自行拟定项目选题。从2023年首届举办到现在,两年间,上万支参赛队伍从世界奔赴而来,无数选手用天赋与实力趋光而行,用坚定有力的步伐迈入AI新未来,为金融智能的加速融合和落地贡献力量。欢迎学生、开发者、初创团队等热爱技术的人,加入AFAC大赛选手交流群和钉钉群,你可以第一时间获取最新赛程资讯,与专家在线互动答疑,突破备赛瓶颈。,涵盖智能合规校验、资金流动预测、投研决策自动化、金融推理效能优化四大方向,直击金融合规、流动性管理、资管科技等核心场景的刚需痛点。
2025-06-05 21:59:01
778
转载 OpenAI深夜宣布更新!ChatGPT支持MCP、会议记录
ChatGPT还会根据用户的权限设置,确保只有授权用户能够访问和编辑会议记录,从而在保障信息完整性和可用性的同时,也确保了信息的安全性和隐私性。这些子查询会分别发送到不同的数据源进行搜索,同时考虑到用户对数据的访问权限,确保只有用户有权限查看的数据才会被检索和返回。例如,如果用户查询的是某个产品的销售数据,会优先返回与该产品相关的销售机会和交易记录,而不是其他无关的信息。更重要的是,记录模式不仅记录了会议的原始音频,还通过智能分析生成了关键点、行动项和决策的总结,使得用户在会后能够快速回顾和提取重要信息。
2025-06-05 11:20:22
42
转载 梅宏院士:人工智能模型与开源的几点认识
Datawhale干货 作者:梅宏,中国科学院院士2025年伊始,大语言模型DeepSeek在继2022年底ChatGPT带来人工智能(artificial intelligence,AI)的“现象级”应用之后,再度带来了新一波全球性的大模型应用和讨论的热潮,甚至被视为某些世界性事件的诱因,其中不仅仅有对AI领域中国式创新的热议,还有对AI发展路径的反思和展望。关于DeepSeek对AI发展的贡献,业界基本上有两点共识:一是它通过工程创新大幅地降低了大模型训练和应用的成本;二是它通过开源推动了海量的大模型应
2025-06-04 22:40:46
77
转载 时隔六年!互联网女皇340页AI猛料刷屏,大佬熬夜头秃
2010年,她加入凯鹏华盈(Kleiner Perkins),领导他们的成长基金,随后一举投资了 Facebook、Spotify、Square、Twitter和Snap,见证了它们的辉煌。在这份340页报告中,51次出现「前所未有」这个词,核心要点就是——AI驱动的这场变革已经全面且不可逆转,既是机遇遍地的黄金时代,也是奇点的「关键时刻」!曾经,她是曾是摩根士丹利TMT团队的一员。由此,他们完全跳过了传统应用层,以智能体为中心的体验,将颠覆现在已有的所有互联网技术等级,平台的意义将被消解、重新分配。
2025-06-03 22:24:39
105
转载 AI大神Karpathy分享ChatGPT模型选择指南!
可以说,ChatGPT的记忆系统超越了简单的上下文窗口,通过分层、智能地存储和检索信息,极大地提升了用户体验,让它感觉更像是一个能够学习和成长的智能伙伴。在这背后其实是因为ChatGPT拥有超强的记忆力,而这也是为何ChatGPT命名如此「混乱」的前提下,大家仍然爱用,并且是周活最高的AI工具,没有之一。用户洞察则自动化了这一过程,即使你不明确告知,ChatGPT也能根据你的历史行为自动调整其回应,提供更贴切的解释,避免重复提问。例如,如果你告诉它「我是一名软件工程师」,它可能会保存;
2025-06-03 12:32:25
33
转载 最新对话|吴恩达评AI Agents现状!
但语音就不一样了:时间是往前推进的,你说了就说了,也可以临时改变主意,比如说“我改主意了,忘了我前面说的”,模型其实处理这些的效果还不错。另一方面,工具之间的变化也很快。还有一些其他小技巧,比如说,如果你做的是语音客服机器人,在等待期间播放背景音(比如呼叫中心的噪音),而不是完全的静音,用户就会更容易接受系统的“迟钝”一个很重要但常被忽略的点是:要搭建一个正确的 Eval(评估)体系,不只是评估整个系统的效果,还要能追踪每一步骤,这样你才能快速定位“是哪一步坏了”,“是哪个 Prompt 没有发挥作用”。
2025-06-02 22:00:54
82
转载 面向人工智能,清华大学成立四个新书院,今年开始招生
清华大学党委书记邱勇表示,此次成立四个新的书院,就是为了加快构建清华特色中国书院育人体系,不断发展新的教育理念、教育思想和教育模式,培养国家战略人才和急需紧缺人才,提升对高质量发展的支撑力贡献力,在服务国家发展的进程中成就一流大学的新高度。日,清华大学成立无穹书院、紫荆书院、自强书院、水木书院四个新书院,无穹书院院长由郑力担任,紫荆书院院长由张利担任,自强书院院长由姚强担任,水木书院院长由冯鹏担任。清华大学成立无穹、紫荆、自强、水木四个新书院,新任院长分别为郑力、张利、姚强、冯鹏。
2025-06-02 19:16:22
32
原创 《Happy-LLM》项目正式发布,一起快乐学习大模型!
本项目是一个系统性的 LLM 学习教程,将从 NLP 的基本研究方法出发,根据 LLM 的思路及原理逐层深入,依次为读者剖析 LLM 的架构基础和训练过程。同时,我们会结合目前 LLM 领域最主流的代码框架,演练如何亲手搭建、训练一个 LLM,期以实现授之以鱼,更授之以渔。LLM 是一个快速发展、注重实践的领域,我们建议你多投入实战,复现本项目提供的各种代码,同时积极参加 LLM 相关的项目与比赛,真正投入到 LLM 开发的浪潮中。第5章~第7章是实战应用部分,将逐步带领大家深入 LLM 的底层细节。
2025-06-01 23:50:52
578
转载 陶哲轩:感谢Lean,我又重写了20年前经典教材!
例如,尽管 Mathlib 已具备标准自然数体系,但在第 2 章中,陶哲轩首先以手工方式构建了另一种自然数结构 Chapter2.Nat(若在 Chapter2 命名空间下可简称为 Nat),并推导出与该结构相关的基础结论。特别地,之前用来构建标准数系等的「朴素类型理论」,与 Lean 的依赖类型理论(其中 Lean 对商类型的支持非常出色)非常契合。该书侧重于基础问题,例如自然数、整数、有理数和实数的构造,并提供足够的集合论和逻辑知识,使学生能够进行高度严谨的证明。而陶哲轩本人,也在等待大家的反馈。
2025-06-01 18:35:58
109
转载 从零开始200行python代码实现LLM!
如果学习率大,那么每次更新的多,学习率小,每次更新的就少。的大小为B * T * C,由于我们是Bigram模型,每个token的概率只和它上一个token有关,所以实际上我们只需要计算批次中最后一个token的logit就可以了,但为了和以后的模型统一,依旧保留了这些冗余计算。实现中,我们使用交叉熵函数作为损失函数,且为了满足交叉熵函数对于参数的要求,我们把(B, T, C)的张量,变形为(B * T, C),不需要理解交叉熵函数计算方式,只需知道它得出了两个tensor的差值即可。
2025-05-31 22:20:44
68
转载 Agent也能蒸馏了!性能超好
显示,经过Agent蒸馏的0.5B小模型(参数仅5亿),在投资计算、多跳问答等任务上,性能直接追上传统方法训练的1.5B模型(15亿参数)。论文证明,小模型也能“四两拨千斤”——只要学会用工具,就能在手机、平板上运行智能助手,甚至替代部分大模型场景。传统方法让小模型模仿大模型的“解题步骤”(CoT蒸馏),但小模型容易“开脑洞”——比如硬背答案却不会查资料,或强行心算导致错误。:让大模型先写“解题大纲”,再生成具体步骤。比如解方程时,先写“第一步:整理方程形式”,避免小模型一上来就跑偏。
2025-05-31 18:44:30
64
转载 “AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
最近网络上流传着一段视频,展示了一个AI在为某人预订婚礼酒店时,与另一个AI意外“相遇”,它们竟然切换到一种叫“Jiblink”的语言,这种语言对人类来说是完全不可理解的,但据说效率比普通语言高出80%。我们的本性,其实是出于对生存的追求而形成的。举个例子,如果你赋予AI一个核心目标,并告诉它“这非常重要”,然后再给予它其他次要任务,它可能会装出一副正在完成你希望它完成的工作的样子,但其实并没有真正去做。当我感到尴尬时,我的脸会变红,而当AI感到尴尬时,虽然它的“脸”不会变红,也不会大汗淋漓。
2025-05-31 15:25:36
55
转载 Text Diffusion,来了!
LLaDA 做完之后,课题组经过了讨论,决定全力支持开源工作,把一切能开源的代码和权重全都放了出去,并且尽快地回复社区内的所有问题。我们组和非常多 MDM 的人是机器学习出身,特别是 generative model 出身,最初的动机包括 MDM 本身的发展是沿着概率建模的思路的,因此就顺着叫 Diffusion 了(如果往前追到 ICML 2015, 这比 BERT 还早),后来我们确实发现了和 BERT 以及 MaskGIT 的联系,也都在 related work 提到了,并没有人回避这个问题。
2025-05-30 23:53:56
53
转载 斯坦福大学教授李飞飞:未来需要三维世界的基础大模型
Datawhale分享 访谈:李飞飞,斯坦福大学教授5月13日,李飞飞接受海外博客High Signal访谈,本次对话中详细解释了“以人为本AI”的核心内涵、实践维度及其在医疗、教育等多元领域的广阔应用。此外,还聚焦于空间智能AI的前沿进展、三维基础模型的未来构想、开源生态对行业的关键作用,并就如何辨别AI发展中的真实信号与潜在风险,以及构建健康、可持续的AI生态系统等议题展开交流。李飞飞指出,空间智能作为整体智能及未来AGI的关键组成,通过对三维世界的建模、理解与交互,将为内容创作、互动体验、机器人技术及
2025-05-30 17:33:12
59
转载 RAG 挑战赛冠军方案解析:从数据解析到多路由器检索的工程实践,推荐阅读!
因此,我们卷起袖子,彻底研究了库的源代码,并重写了几个方法以满足我们的需求,从而在解析后得到了一个包含所有必要元数据的 JSON 文件。最终,赢得 RAG 挑战赛并非因为找到了某个神奇的解决方案,而是因为采取了系统化的方法,深思熟虑地结合和微调了各种技术,并深入钻研了任务细节。关键的成功因素包括高质量的解析、高效的检索、智能的路由,以及——最值得一提的——LLM 重排序和精心设计的提示词,这些使得即使使用紧凑的模型也能取得出色的结果。模型的认知能力是有限的,额外的规则会分散其回答核心问题的注意力。
2025-05-29 22:36:04
79
转载 刚刚,新版DeepSeek-R1正式开源!
船每次只能载他和一样物品。最终DeepSeek的成果还贴心的设计了参数控制面板,以及速度方向指示,是真的很强,以上所有代码都是提示之后一遍过,没有任何的Debug过程。我给他了一个非常无厘头的族谱问题:「我的妈妈的爸爸的儿子的侄女的孙子的爷爷的舅舅的外孙女的姑姑,是我的谁,你能画出关系族谱图吗?注意,R1的表现之所以如此惊人,是因为它返回的两个文件在第一次都能运行良好,不用编辑,不用重试,这极其少见。设计一个新智元的官方网站,对于这种相对容易的任务,DeepSeek-R1-0528只需要10s的思考时间。
2025-05-29 11:18:28
314
转载 Llama核心团队大面积跑路:14人中11人出走,Mistral成主要去向!
但随着众多原始架构师的离去,以及竞争对手在开源创新方面进展更快,Meta 如今面临的挑战是:在没有原有团队的情况下,如何捍卫其在早期建立的领先优势。这 11 位已离职的作者在 Meta 的平均任期超过五年,这说明他们并不是短期雇佣的人员,而是深入参与 Meta AI 工作的资深研究人员。在 Meta 内部,其研究团队也经历了一次重组。Meta 在 AI 领域投入了数十亿美元,但至今仍没有推出专有的「推理」模型,人们逐渐转向使用提供更先进功能的模型,Meta 在开源领域与竞争对手的差距也变得更为明显。
2025-05-28 22:18:26
43
转载 微软副总裁在X上开课了!连更关于RL的一切,LLM从业者必读
从本质上看,预测下一个 bit 的过程实则是一种自由能(熵)最小化的过程,简而言之:在趋于无序的世界中创造有序。大语言模型是一个概率模型。这种在对大语言模型的权重进行最大化的同时对其输出进行求和的方法,被称为最大期望效用,这也是博弈论中理性主体所采取的做法。为了得到第一个蒙特卡罗估计值,我们使用来自行为策略 pi_old 的样本 a^i ,但是如果我们想要保持估计的无偏性,对于第二项(即 KL 散度项)的蒙特卡罗估计应该使用来自 pi_theta 的样本 a^i ,而不是来自 pi_old 的样本。
2025-05-28 20:37:52
43
转载 【万字长文】大模型开源开发全景与趋势解读
它们日薄西山的原因背后,也反映了 AI 开发领域的市场分化:已经成熟的商业产品(Copilot、Devin、Cursor 等)和开源工具瓜分了市场,功能同质化或迭代缓慢的项目(如 Devika、GPT-Pilot)难以生存,而像 GPT Engineer这样早期积累了大量用户的明星开源项目,也通过开源的成功实践而发展为闭源的商业化产品:开源项目 GPT Engineer 作为热门的 AI 应用构建产品 Lovable 的前身,由于背后团队注意力的转移,如今已经不再继续维护。
2025-05-28 13:43:27
69
转载 产学研深度联动!1.6万人参赛,世界人工智能大会颁奖,第三届世界科学智能大赛构建科创生态圈
本届大赛由上海市科学技术委员会、上海市发展和改革委员会、上海市经济和信息化委员会、上海市教育委员会等多部门联合指导,上海科学智能研究院(下称上智院)和复旦大学联合主办,阿里云计算有限公司、中国南方电网电力调度控制中心、上海市漕河泾新兴技术开发区发展总公司、上海复星医药(集团)股份有限公司、晶泰科技、艾昆纬企业管理咨询(上海)有限公司等机构协办,以“更产业、更开放、更年轻”为核心亮点,设立五大赛道。随着赛程的推进,这场融合科技、产业与教育需求的科学智能盛宴,正吸引着各界更来越多的关注。本届大赛立足“更年轻”
2025-05-28 11:40:09
71
转载 吴恩达:如何在人工智能领域打造你的职业生涯?
给你的雇主充足的时间,在最后的工作时间里全力以赴,尽你所能完成未完成的工作,以一种尊重你所承担的责任的方式离开。我的很多朋友都成功地从事技术而非管理方面的职业,他们能够通过运用深刻的技术洞见来帮助指导项目,例如,在何时投资于新的技术架构或收集更多某种类型的数据,这让他们成长为领导者,并显著改善了项目。在你的职业生涯中,你会从事多个项目,所以你有大量机会来完善你对什么是有价值的想法。鉴于人工智能项目的巨大数量,与其采用传统的“准备,瞄准,开火”的方法,你可以采用“准备,开火,瞄准”的方法来加速你的进步。
2025-05-27 22:35:43
50
转载 总结!2025年大模型Agent RL训练多轮planning技术
OTC-PO是一种简单而有效的基于强化学习 (RL) 的方法,它使大型语言模型 (LLM) 能够学习对外部工具使用的精确且自适应的控制。算法使用的是PPO和GRPO,模型使用的是qwen-0.5b-instruct,用的是verl框架,为了将 StarPO 付诸实践,构建了RAGEN,这是一个用于在受控环境中训练 LLM agent的完整系统。然而,针对工具使用的奖励设计面临着独特的挑战:多个工具可能以不同的参数调用,而粗粒度的奖励信号(例如答案匹配)无法提供有效学习所需的细粒度反馈。
2025-05-27 20:12:37
184
Python数据分析与挖掘实战(高清带标签+源代码)
2018-06-20
机器学习_数学基础_精选教材(概率,线代,微积分)
2018-08-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人