- 博客(510)
- 收藏
- 关注
原创 多Agents 圈的 MCP:谷歌全新Agent2Agent 协议开源!
任务管理:客户端与远程代理之间的通信以任务完成为导向,代理负责执行最终用户的请求。它可以立即完成,或者,对于长时间运行的任务,每个代理可以进行通信,以彼此保持同步,了解任务的最新完成状态。作为开放协议,A2A遵循拥抱Agent能力、基于现有标准、默认安全、支持长时间运行任务和与模态无关的五项关键原则,实现灵活、安全、跨框架的Agent协作。能力发现:Agent可以使用 JSON 格式的“代理卡”来宣传其能力,从而允许客户端代理识别能够执行任务的最佳代理并利用 A2A 与远程代理进行通信。
2025-04-12 10:00:58
190
原创 200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了
通过人类对 Seed-Thinking-v1.5 与 DeepSeek-R1 输出结果的比较评估,结果发现,Seed-Thinking-v1.5 获得的用户积极反馈总体高出 8.0%,凸显了其在复杂用户场景处理能力方面的能力。然后,它会估算各种配置的性能和内存使用情况,以获得最佳配置。从技术架构看,Seed-Thinking-v1.5 采用了混合专家模型(Mixture-of-Experts,MoE)设计,总参数量为 200B,实际激活参数仅为 20B,相比同等性能的其他最先进推理模型,规模相对紧凑高效。
2025-04-12 09:59:21
723
原创 AI教父诺奖得主 Hinton:比我们聪明的 AI,可能很快不再需要人类
Hinton 没有告诉我们“怎么办”,但他让我们看清了: 如果我们继续对 AI 抱有“可控幻觉”,最后失控的不会是技术,而是文明本身。人类不是不能创造超级智能,而是必须配得上自己创造的力量。这不是技术判断,而是文明判断。
2025-04-11 11:35:25
818
原创 7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?
结果清晰显示,Dream 在同等规模模型中表现卓越。在 1B 参数规模上,作者深入研究了各种设计选项,确立了多个关键组件,特别是来自 AR 模型(如 Qwen2.5 和 LLaMA3)的初始化权重以及上下文自适应的 token 级噪声重排机制,这些创新为 Dream 7B 的高效训练铺平了道路。在通用能力、数学推理和编程任务上,这个模型展现出了与同等规模顶尖自回归模型(Qwen2.5 7B、LLaMA3 8B)相媲美的卓越性能,在某些情况下甚至优于最新的 Deepseek V3 671B(0324)。
2025-04-11 11:34:38
759
原创 AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观
据论文另一位共同一作 Gashon Hussein 介绍,为了实现逼真的动画效果,他们利用 TTT(Test-time Training,测试时训练)层来增强预训练 Transformer,并进行了微调,从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。下图 3 为方法概览,其中(左)为本文修改后的架构在每个注意力层后添加一个带有可学习门的 TTT 层,(右)为整体 pipeline 创建了由 3 秒片段组成的输入序列,这种结构允许在片段上局部应用自注意力层,在整个序列上全局应用 TTT 层。
2025-04-10 16:43:29
648
原创 首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的
来源 | 量子位嚯!完全由AI生成的论文,通过顶会ICLR workshop评审?!分数为6/7/6,已经超过平均人类接收门槛。论文是酱婶的。整个通篇看下来,图表论据俱全,十分有模有样。这篇论文,由AI Scientist的2.0版本完成。背后公司Sakana AI,是Transformer作者之一的Llion Jones的创业公司。新版本2.0是一个通用端到端Agent系统,与原版本不同的是,它摆脱了对人工模版的依赖,能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。
2025-04-10 16:42:38
1210
原创 斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔
在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。
2025-04-09 11:56:41
756
原创 迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准
在 AI 与机器人技术飞速发展的今天,RoboVerse 的出现,无疑为机器人社区带来了更好的资源整合机会和更大的协同发展潜力。Real2Sim 工具链:RoboVerse 支持从现实世界单目视频中重建可用于仿真的 3D 资产,基于 3DGS(3D Gaussian Splatting)等先进技术,打通从现实到仿真的通道,大大降低了仿真环境构建的门槛。来自 UC 伯克利、北京大学等机构的研究人员打造了 RoboVerse,一个统一的平台、数据集与评测体系,专为可扩展、可泛化的机器人学习而生。
2025-04-09 11:55:55
528
原创 Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车
尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的Llama 4 Maverick」。
2025-04-08 14:49:57
747
原创 Llama 4训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅
来源 | 新智元Meta前脚刚发Llama 4,后脚就有大佬请辞了!一亩三分地的爆料贴称,经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。为了蒙混过关,高层甚至建议:在后训练阶段中,将多个benchmark测试集混入训练数据。在后训练阶段中,将多个benchmark测试集混入训练数据。最终目的,让模型短期提升指标,拿出来可以看起来不错的结果。这位内部员工@dliudliu表示,「自己根本无法接受这种做法,甚至辞职信中明确要求——不要在Llama 4技术报告中挂名」。
2025-04-08 14:48:28
750
原创 Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
由下表可知,Llama 4 Maverick 是同类中最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中,其性能超过了类似模型如 GPT-4o 和 Gemini 2.0,并且在编码和推理方面与规模更大的 DeepSeek v3.1 具有竞争力。此外,在训练过程中动态过滤掉零优势的提示,并构建包含多种能力的混合提示训练批次,这些措施在数学、推理和编码方面为模型带来了显著的性能提升。Meta 还发现,先进行轻量级监督微调(SFT),再进行大规模强化学习(RL),能够显著提升模型的推理和编码能力。
2025-04-07 17:57:32
952
原创 全网都在猜,这些视频是不是字节AI生成的:该跟动捕说再见了?
本周四在网络上爆火的 AI 视频生成效果,都来自字节跳动提出的一个全新的框架 DreamActor-M1—— 基于扩散式 Transformer(DiT)的人体动画生成框架,通过混合引导机制,实现对动画的精细化整体控制、多尺度适应以及长时间一致性。在训练时,这些参考图像会作为额外的信息输入,帮助模型更好地保留人物的外貌。在运动引导方面,研究者设计了一套融合隐式面部特征、3D 头部球体和 3D 身体骨架的混合控制信号,能够稳健地驱动面部表情与身体动作的生成,同时保证动画的表现力与人物身份的一致性。
2025-04-07 17:55:56
654
原创 AI教父诺奖得主 Hinton:比我们聪明的 AI,可能很快不再需要人类
Hinton 没有告诉我们“怎么办”,但他让我们看清了: 如果我们继续对 AI 抱有“可控幻觉”,最后失控的不会是技术,而是文明本身。人类不是不能创造超级智能,而是必须配得上自己创造的力量。这不是技术判断,而是文明判断。
2025-04-06 22:01:16
1076
原创 7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?
结果清晰显示,Dream 在同等规模模型中表现卓越。在 1B 参数规模上,作者深入研究了各种设计选项,确立了多个关键组件,特别是来自 AR 模型(如 Qwen2.5 和 LLaMA3)的初始化权重以及上下文自适应的 token 级噪声重排机制,这些创新为 Dream 7B 的高效训练铺平了道路。在通用能力、数学推理和编程任务上,这个模型展现出了与同等规模顶尖自回归模型(Qwen2.5 7B、LLaMA3 8B)相媲美的卓越性能,在某些情况下甚至优于最新的 Deepseek V3 671B(0324)。
2025-04-06 21:59:33
833
原创 稚晖君刚挖来的90后机器人大牛:逆袭履历堪比爽文男主
来源 | 量子位刚刚,稚晖君旗下创企智元机器人官宣了两个新动向——一则是关于人事变动。具身智能领域的国际领军学者,已于近日加盟并出任。罗剑岚在该领域已深耕10年,曾担任Google X、Google DeepMind研究科学家,是UC伯克利17万引大佬Sergey Levine团队的核心成员。他曾参与打造世界上首个超人类的机器人真机强化学习系统SERL/HIL-SERL——首次实现将任务成功率提升到100%,在全球范围内被广泛应用。接下来他将牵头组建,主导前沿算法研发与工程化落地。
2025-04-03 14:27:24
693
原创 Vibe Agent: Token成本直降90%,会对话就能创造专属本地Agent
从最新的 GPT-4o 图像直出、AI IDE 的代码辅助生成再到 Libra 的行动 Agent 生成,交互体验的突破带来的是效率的跨越式提升 —— 传统方式需要数周构建的基础 Agent,在 Vibe Agent 模式下仅需 10 分钟的对话调教,即可让 AI 自主理解场景中的工具需求与流程约束,生成同等甚至更高水平的专业级代理服务。当然,有想法的小伙伴已经想到了, “想要专属个人助理”,“生成一个 Libra”,随着 Libra 的技术验证成功,创造力将不再是瓶颈,请开始你的对话式调教。
2025-04-03 14:26:47
485
原创 刚刚,谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生,拿下全球TOP 1
甚至,有人用Gemini 2.5 Pro测试了一个项目,使用A*算法为高速列车寻找最优解,这个过程中涉及了优化坡度、转弯半径、多目标优化等难题。在上周三刚刚发布时,Gemini 2.5 Pro,还仅仅面向Gemini Advanced订阅者开放,订阅价格为每月19.99美元。虽然又被GPT-4o吉卜力生图的光芒掩盖了,但毫无疑问,上周的另一技术核弹Gemini 2.5 Pro,也是无可争议的强!当然,如果从原理上看,LLM的确没有在做数学,因为它们的本质仍然是概率性的,是做从训练数据中预测最可能的答案。
2025-04-02 14:09:21
1003
1
原创 刚刚,奥特曼官宣开源:自GPT-2之后,我们要发首个带推理能力的开放权重模型
而就在奥特曼官宣开源模型之前的一个小时,他高兴地宣布,「26 个月前,ChatGPT 的推出是我见过的最疯狂的病毒式传播时刻之一,我们在五天内增加了 100 万用户。在发布之前,OpenAI 将根据自己的安全准备框架(Preparedness Framework)评估这个模型,就像对任何其他模型所做的那样。并且考虑到模型在发布之后可能会修改,OpenAI 将做额外的工作。有人猜测是不是 o1-mini 要开源,有人好奇这个模型是在 GPT-5 之前还是之后发布,有人开始猜测这个模型的名称。
2025-04-02 14:08:05
381
原创 北大人工智能研究院朱松纯:“中国的AI叙事” 存在认知偏差
2015~2016年,AlphaGo引发了第一次人工智能的热潮,但冷静下来8年后回头看,当时吹得神乎其神的AlphaGo及其相关产业,除了一些计算机视觉公司(所谓“四小龙”)被抬高了估值,最后实际并没有形成产业化、社会化的广泛影响。我曾经写过一篇文章,提到了“乌鸦与鹦鹉的范式”(指当前AI多停留在“鹦鹉式”的大规模模仿,距离“乌鸦式”的认知与推理仍存在本质差距),批评过这种“泡沫化的融资神话”,今天看,很多现象依然在重演。事实上,智能的本质是“主观的”,每个人的决策都基于自己对世界的认知与价值体系。
2025-04-01 15:09:36
1107
原创 200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba
在 32B 模型尺寸上,AReaL 团队进一步精简训练数据并发布数据集 AReaL-boba-SFT-200 以及相关训练脚本。AReaL-boba 是首个全面拥抱 xAI 公司所采用的 SGLang 推理框架的开源训练系统,对比初代 AReaL 训练大幅度提升训练吞吐:通过集成 SGLang 框架及多项工程优化,AReaL-boba 可以无缝适配各种计算资源下的强化学习训练,实现吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。
2025-04-01 15:08:38
702
原创 模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
与经典的测试时计算类似,当 TAO 能够使用更多的计算资源时,它会产生更高质量的结果(见图 3 中的示例)。图 1 展示了 TAO 在三个企业级任务中对 Llama 模型的提升效果:尽管仅使用原始输入数据,TAO 不仅超越了需要数千标注样本的传统微调 (FT) 方法,更让 Llama 系列模型达到了商业模型的性能水准。更令人惊讶的是,即使没有标注数据,TAO 也能实现比传统调优模型更好的质量,并且它可以将像 Llama 这样的开源模型提升到与专有模型(如 GPT-4o 和 o3-mini)相当的质量水平。
2025-03-31 15:41:37
937
原创 一篇全新知识导向 RAG 全栈技术综述
近期,中科大出品了一篇关于知识导向检索增强型生成(Retrieval-Augmented Generation, RAG)的综述,全面介绍了RAG的基本原理、关键组件、特性、挑战以及在不同领域的应用,并探讨了未来发展的7种RAG技术形态。将外部知识与内部知识无缝整合是生成连贯输出的重要环节,面临处理不同数据类型、解决知识冲突和确保知识时效性的挑战,可通过多层整合策略灵活处理不同来源的知识。:将内部知识与检索到的外部知识进行整合,是RAG的核心环节。:结合内部知识和检索到的外部知识,生成连贯、相关的输出。
2025-03-31 15:40:07
336
原创 外媒:英伟达将收购贾扬清创业公司Lepton AI,交易价值数亿美元
在 AI 领域,贾扬清是全球最受关注的科学家之一,他博士毕业于加州大学伯克利分校,主要研究方向为人工智能硬件和软件堆栈的设计和演进。在伯克利读博期间,他开发了深度学习框架 Caffe,以优异的结构、性能和代码质量成为机器学习领域最受欢迎、最成功的开源 AI 框架之一,对机器学习领域发展起到了极大的推动作用。2023 年,贾扬清离开阿里成立 Lepton AI,旨在建立高效的 AI 应用平台,其创始团队来自于机器学习社区 ONNX、分布式系统研发平台 etcd 等。,展现了构建 AI App 变得如此简单。
2025-03-29 09:51:16
454
原创 Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光
来源 | 新智元AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。不过,这些强大的AI上空总有一团迷雾笼罩。那就是:他们到底是怎么找到答案的?其整个运作机理就像个「黑箱子」。我们知道模型输入的是什么提示词,也能看到它们输出的结果,但中间的过程,就连开发这些AI的人也不知道。简直是个谜。这种不透明带来了各种麻烦。比如,我们很难预测模型什么时候会「胡说八道」,也就是出现所谓的「幻觉」。更可怕的是,有些情况下,模型会撒谎,甚至是故意骗人!
2025-03-29 09:42:09
547
原创 GPT-4o的P图太火了,GPU在融化,官方终于限流了
OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。原生多模态的大模型是如此的强大,对此很多业内人士已经开始认为,当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。
2025-03-29 09:41:29
248
原创 外媒:英伟达将收购贾扬清创业公司Lepton AI,交易价值数亿美元
在 AI 领域,贾扬清是全球最受关注的科学家之一,他博士毕业于加州大学伯克利分校,主要研究方向为人工智能硬件和软件堆栈的设计和演进。在伯克利读博期间,他开发了深度学习框架 Caffe,以优异的结构、性能和代码质量成为机器学习领域最受欢迎、最成功的开源 AI 框架之一,对机器学习领域发展起到了极大的推动作用。2023 年,贾扬清离开阿里成立 Lepton AI,旨在建立高效的 AI 应用平台,其创始团队来自于机器学习社区 ONNX、分布式系统研发平台 etcd 等。,展现了构建 AI App 变得如此简单。
2025-03-28 10:52:04
820
原创 阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
Omni 和创新架构:团队提出了 Thinker-Talker 架构,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。团队人员对 Qwen2.5-Omni 进行了全面评估,结果表明,该模型在所有模态上的表现均优于类似大小的单模态模型以及闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。在需要集成多种模态的任务中,如 OmniBench,Qwen2.5-Omni 达到了最先进的水平。
2025-03-28 10:51:01
733
原创 谷歌地表最强模型深夜来袭!Gemini 2.5 Pro发布即屠榜,代码推理杀疯了
来源 | 新智元就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!Gemini 2.5 Pro是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。
2025-03-27 17:24:55
766
原创 视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
因此,为了更充分地发挥 Test-Time Scaling 的潜力并为后续增强 VLM 能力的探索提供思路,研究团队将不同的 Verifier 进行综合,用于 Test-Time Scaling 过程,发现在相同的 NFE (Number of Function Evaluations) 下。研究团队选取了三种视频生成模型实现 Tree-of-Frames 方法,并计算其视频模型的推理计算需求,在 VBench 总分相同的情况下进行比较,发现 Tree-of-Frames 显著降低了视频模型推理计算量。
2025-03-27 17:24:16
783
原创 DeepSeek V3深夜低调升级,代码进化令人震惊,网友实测可媲美Claude 3.5/3.7 Sonnet
X 博主「orange.ai」对 DeepSeek V3、DeepSeek-V3-0324 与 Claude Sonnet 3.7 的海报设计结果进行了比较,同样表示前端代码能力相比上代有了显著增强。他表示,DeepSeek-V3-0324 大约可以实现 o1-pro70% 的性能,但它免费并且 API 价格比后者便宜了至少 50 倍。Hugging Face 地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main。
2025-03-26 14:45:44
602
原创 AI引爆全美失业潮,12个月内接管所有代码!3亿岗位被取代,70%职业大换血
链接:https://www.brookings.edu/articles/generative-ai-the-american-worker-and-the-future-of-work/tid=1742781215516。如果2025年或2026年出现经济衰退,作为减少人力的情况下支持效率和生产力的策略,面临裁员压力的公司很可能会转向AI技术,尤其是基于LLM的工具和流程。去年秋天,布鲁金斯学会的报告也指出,「超30%的劳动者,岗位中至少50%的工作任务,可能会被GenAI颠覆」。
2025-03-26 14:44:31
451
原创 腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
3 月 21 日,英伟达推出了 Nemotron-H 系列的 Mamba-Transformer 混合架构模型,其中包含多种规模的多种模型,比如 Nemotron-H-8B-Base、Nemotron-H-8B-Instruct、Nemotron-H-8B-VLM、Nemotron-H-47B-Base、 Nemotron-H-56B-Base、Nemotron-H-56B-VLM。该架构在工作流程早期引入了时间动态,从而可以显著提升 Video-LLM 的时间推理能力,同时还能大幅提升的下游计算效率。
2025-03-25 10:59:19
819
原创 只写prompt救不了Agent
Alexander Doria关于Agent的思考,由宝玉AI翻译,Founder Park排版整理,信息平权编辑。Alexander的观点很明确:未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。还拿目前很火的 Manus 作为案例:他认为像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。而下一代真正的 LLM 智能体,则是通过
2025-03-25 10:58:32
1416
原创 Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们 | 万字访谈实录
来源 |APPSO我认为 DeepSeek 确实是个很棒的团队,也做出了很优秀的模型,但他们真正走红的原因,并不完全是模型本身的能力。这对我们来说是一个教训,那就是当我们隐藏一个功能时(思维链),我们给其他人留下了获得病毒式传播的机会。这是一个很好的警醒。它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用。硅谷知名分析师 Ben Thompson 最近与 OpenAI CEO Sam Altman 进行了一场深度对谈,Altman 聊了很多内容,包括开源模型、GPT-5 的进展、和 De
2025-03-24 11:49:50
363
原创 Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们 | 万字访谈实录
来源 |APPSO我认为 DeepSeek 确实是个很棒的团队,也做出了很优秀的模型,但他们真正走红的原因,并不完全是模型本身的能力。这对我们来说是一个教训,那就是当我们隐藏一个功能时(思维链),我们给其他人留下了获得病毒式传播的机会。这是一个很好的警醒。它也让我重新思考我们在免费层中提供的内容, GPT-5 将可以免费使用。
2025-03-24 11:48:42
534
原创 为啥DeepSeek爆火之后,中国人想到的是大量裁员,而不是上三休四?
知乎上爆火的一个新帖,戏谑而深刻,1100W+阅读,目前还在迅速增长。主题:为啥DeepSeek爆火之后,中国人想到的是大量裁员,而不是上三休四?https://www.zhihu.com/question/11927522582【回答1:2900+赞同】【回答2:4000+赞同】去年参观一个工厂,管理介绍一个生产线,说这里以前要三十多人,现在只要两个人看着机器就行,生产率大大提升。不过呢,那两个人还是要干1X小时……【回答3:9400+赞同】【回答4:4700+赞同】因为你不拥有生产资料。有的人早就可以上
2025-03-24 11:42:04
468
原创 一篇72页的DeepSeek-R1/QWQ-32B推理能力在AI Agents场景的应用分析
大型推理模型(LRMs)的兴起标志着计算推理领域的范式转变。然而,这一进步也颠覆了传统的 Agent 框架,而这些框架传统上是由以执行为导向的大型语言模型(LLMs)所锚定的,深入理解LRMs在AI Agents中的作用势在必行。ReAct范式下的整体性能表现。a) 不同任务和模型的性能表现;b) 效率和成本比较。
2025-03-24 11:41:01
424
原创 揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
此外,正如之前假设的那样,Qwen2.5 模型很可能是在拼接的问答文本上进行预训练的,因此他们同样从 NuminaMath1.5 中准备了一个拼接的数据集,并用 1e-5 的学习率对 Llama-3.2-3B-FineMath 进行了 2 轮持续预训练。图 7 的右图比较了使用 GRPO 和 Dr. GRPO 训练的模型性能和回答长度,可以清楚地看到,GRPO 可以产生「双重增加」现象,可能导致误解,即在数学预训练后,长思维链(long-CoT)也能在 Llama 模型上出现。(实验设置详见表 3)
2025-03-24 11:39:27
898
原创 DAgent:自动化报告生成智能体方案
例如,使用问题分解工具后,系统的检索性能显著提升,尤其是在处理复杂问题时,问题分解工具帮助系统从多个表中全面检索相关信息,大大提高了查询的准确性。举个例子,当用户提出一个复杂的问题时,规划模块会将其分解为多个子问题,并为每个子问题选择最合适的检索工具。例如,当用户提出一个复杂的问题时,规划模块会将其分解为多个子问题,并为每个子问题选择最合适的检索工具。:这是 DAgent 的“大脑”,负责分析用户输入的自然语言问题,决定是否需要将问题分解为多个子问题,并选择适当的工具来执行任务。”分解为多个子问题。
2025-03-21 10:51:44
748
原创 刚刚,OpenAI推出最贵o1-pro API!千倍于DeepSeek
也有网友将其和 DeepSeek-R1 进行对比,只能说一比吓一跳,因为 DeepSeek-R1 定价实在是太亲民了,况且 DeepSeek 还推出了错峰优惠时段,价格更低。「想象一下,当你在睡觉时,o1-pro 系统陷入了一个恶性循环,结果到了早上,你发现自己欠下了一屁股债。参考链接:https://platform.openai.com/docs/models/o1-pro。图源:https://platform.openai.com/docs/models/o1-pro。
2025-03-21 10:50:55
364
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人