人工智能与算法学习-优快云博客

转载再次封神！AI大模型又起飞！

是衡量大语言模型“从量变到质变”的关键，是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为，以增强其处理能力，实现更复杂的任务，使大模型能够集成外部工具和资源，提升交互性和实用性。▶AI大模型技术实战—— Transformer 架构的核心原理、应用 Fine-tuning 技术，精准微调AI大模型，2节直播课，为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用！老师们将大模型技术原理讲透的同时，还将丰富的商业化AI应用项目无偿分享，帮大家快速打通。

2025-04-01 12:00:37 11

转载智谱发布首个具备深度研究和操作能力的AI Agent

这是因为智能体任务往往涉及多轮复杂交互，32B的参数量使得 GLM-4-Air-0414 能快速执行复杂任务，为AI智能体的真正大规模落地应用提供了坚实基础。将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414，并推出了对应的推理版本 GLM-Z1-Flash，在保留大部分效果的情况下。AutoGLM 沉思背后的模型，是我们全新推出的Agent大脑——沉思模型，即通过强化学习，让模型学会自我批评、反思、甚至沉思，在AI Agent的发展过程中，智谱始终在不断探索和创新。

2025-04-01 12:00:37 23

转载关于DeepSeek R1的四个常见误区

而是要看是否这些反思 pattern 帮助模型提高了准确率，或者说是，带反思 token 的 response 的 accuracy 是否真的高于 response 的平均 accuracy。此外，不同的 reflection pattern 对 accuracy 的贡献也不相同，try another approach 就是比 compute again 要高级一些，模型能不能在 reward 持续上涨的过程中，自发地提升优质 reflection pattern 的出现概率，也是我们要观察的重点。

2025-03-31 13:01:35 9

转载 DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

在 KCORES大模型竞技场中，Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者，DeepSeek-V3-0324以328.3分拿下第三名，仅次于Claude 3.5 Sonnet。不止如此，Cline还表示，DeepSeek-V3-0324较之前的版本增加了60%的专家（从160增加到256），使用了FP8精度训练将计算效率翻倍，不仅使前端编码能力增强，数学与逻辑能力也有所提升。如果它们能免费提供，那原本只有财力雄厚的大型机构才能获得的高级AI系统，会变得人人可用。

2025-03-26 18:57:12 18

转载一文看懂多模态思维链

不仅阐释了与该领域相关的基本概念和定义，还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发展的未来研究方向。超越传统的文本推理范式，引入多模态思考过程，例如在几何问题中生成草图，或将文本推理过程可视化，从而提升多模态场景下的解释性与直观性。：动态构造树状或图状推理路径。：采用预定义的规则流程（如“辩论-反思-总结”模式），分阶段逐步逼近最终决策，确保推理过程的有序性。：模型根据任务需求动态生成子任务序列，例如先定位物体位置，再分析其属性，实现自适应的结构化推理。

2025-03-26 18:57:12 16

转载刚刚！腾讯混元自研深度思考模型「T1」正式发布

在体现推理模型基础能力的常见benchmark上，如大语言模型评估增强数据集MMLU-PRO中，混元T1取得87.2分，仅次于o1。同时，混合Mamba架构针对长序列处理进行了专项优化，通过高效的计算方式，在确保长文本信息捕捉能力的同时大幅降低资源消耗，在相近的激活参数量下，通过大规模强化学习，并结合数学、逻辑推理、科学和代码等理科难题的专项优化，混元T1正式版进一步提升了推理能力。「T1」吐字快、能秒回，还擅长超长文处理，是腾讯自研的强推理模型，已经上线腾讯云，即将在腾讯元宝灰度上线。

2025-03-22 11:22:40 51

转载再次颠覆学界想象，何恺明发表新作：扩散模型不一定需要噪声条件

关于未来，研究者希望消除噪声条件将为基于去噪的生成模型的新进展铺平道路，激励业界重新审视相关方法的基本原理，并探索去噪生成模型领域的新方向。例如，只有在没有噪声条件的情况下，基于分数的模型才能学习到独特的分数函数，并实现经典的、基于物理学的朗格文动力学。本文的研究涉及这种噪声条件的影响，即考虑了 NN_θ(z) 和 NN_θ(z|t)，参见图 1（右）。实验表明，这个误差边界与所研究的模型的噪声 - 无条件行为有很好的相关性，特别是在模型出现灾难性失败的情况下，其误差边界要高出几个数量级。

2025-03-20 15:14:38 19

转载超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

使用该算法，该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分，优于同等规模的 DeepSeek-R1-Zero-Qwen-32B，同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。为此，研究者建议进行过度采样，过滤掉等式 11 中所示精度等于 1 和 0 的提示语，保留批次中所有具有有效梯度的提示语，并保持一致的提示语数量。在使用 PPO 或 GRPO 进行的初步实验中，研究者观察到了熵崩溃现象：随着训练的进行，策略的熵迅速下降（如图 2b）。

2025-03-18 17:32:30 22

转载大模型面经-淘天

三面应该是加面的大老板面，从交流可以看出来对整个大模型这块的理解还是很深刻的，收获不小。了解哪些大模型和多模态大模型，然后就聊了大模型这一路是怎么发展过来的，Transformer、BERT、GPT、LLaMA、Qwen 这些，以及当时的 o1 推理模型。一面比较常规，几乎都是八股问题，我觉得只要了解常见的多模态大模型都问题不大，主要还是要理解各个模型设计的动机是什么，这也是面试最喜欢考察的。二面其实也偏常规，几乎也都是八股问题，但是也考察了一些对模型的理解以及知识面的广度，整体来说比一面的难度大一些。

2025-03-18 17:32:30 20

转载超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

结果发现，MRT 的表现始终优于结果奖励强化学习，在多个基准测试（AIME 2024、AIME 2025、AMC 2023 等）上取得了 15 亿参数规模的 SOTA 结果，其相较于基础模型的准确率提升是标准结果奖励 RL（GRPO）的约 2-3 倍，而 token 效率是 GRPO 的 1.5 倍、是基础模型的 5 倍。另一方面，如果 LLM 仅专注于发现（discovery），那么探索就更可取，这样 LLM 就可以耗费几个片段来尝试不同的方法，并进行验证和修改，然后得出最终答案。

2025-03-17 16:02:10 29

转载 2025年99%代码AI生成！人类将被全面超越

历史证明，最具生产力的公司会抢占市场份额，推出更多产品，进而占据更大的市场份额」。再到如今，AI编程能力强到令人发指，不仅在算法编程竞赛中表现出色，在实际应用中，比如开发某个网站的前端界面，或者要在后端搭建基础架构，都能完成得很好。而现在，有了Sora，他可以在一个下午的时间里创作出40种不同版本的转场效果，尽情探索各种可能性，最终选出最佳创意，再交给专业团队完善。同时，他也指出，这并不意味着程序员将彻底被取代，AI的崛起将迫使我们重新思考「有用」和「无用」的定义，探索如何最大化人力资本的价值。

2025-03-17 16:02:10 28

转载通义RAG团队开源LaRA框架：模型越弱，RAG提升越猛？

来源：NLP前沿阿里通义RAG团队等提出RAG与长文本对比新框架，助力智能路由决策机制设计论文标题：LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing论文地址：https://arxiv.org/abs/2502.09977开...

2025-03-11 19:34:34 80

转载使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

来源：机器之心没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了DeepSeek开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。下面我们就来具体看看他的博客文章，了解一番他的开发思路。原文地址：https://hrishbh.com/teach...

2025-03-11 19:34:34 38

转载邀请码炒到10万？OpenManus深夜开源打脸！Manus平替光速上线！

来源：新智元【导读】离了个大谱，Manus全网邀请码一票难求？激动人心的是，开源界凌晨来了一场核爆攻击，用3小时代码量开源了平替项目——OpenManus，免费体验不要邀请码！同时发布的还有另一个「Manus同款」OWL，直接干到GAIA基准测试开源最强！昨天，所有人都被Manus刷屏了，一个邀请码已经被炒到了天价。虽然被Manus强势刷屏，很多人却只能眼睁睁地看着，没法亲自上手体验，只因一码难求...

2025-03-07 15:30:20 79

转载 DeepSeek知识库，持续更新！免费领取！

从今年春节到现在，国产大模型 DeepSeek 彻底火了！无论是科技大厂的技术分享，还是创业团队的创新应用，DeepSeek 都成为了高频关键词。它凭借强大的功能和易用性，正在改变我们处理信息、解决问题的方式。现在，掌握 DeepSeek 已经不仅仅是程序员的专利，而是每一个想要提升效率、创造价值的职场人必备的技能！然而，面对网络上铺天盖地的资料，很多人却陷入了迷茫：网上这么多教程，哪些才是真正有...

2025-03-05 13:31:14 26

转载 Deepseek-R1-Zero复现实验细节

作者：Courage(大模型/强化学习算法工程师）原理简介实验设置基座模型Qwen2.5-14B-BaseQwen2.5-32B-Base训练数据数据集：DeepScaleR-Preview-Dataset：由AIME、AMC、Omni-MATH、Still dataset构成，约4w条，较难；RLVR-GSM&RLVR-MATH：由GSM8K和MATH混合，约1.5w条，较简单；在用户问...

2025-03-05 13:31:14 45

转载 DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

来源：机器之心GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法》。简单来说，GRPO 算法丢弃了 critic model，放弃了价值函数近似，转而通过组内样本的相对比较来计算策略梯度，从而有效降低了训练的不稳定性，同...

2025-03-03 18:47:13 32

转载刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

来源：机器之心上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型MLA解码核：FlashMLA。该项目上线才 45 分钟就已经收获了超过 400 star！并且在我...

2025-02-24 16:31:05 31

转载首篇多模态 RAG 全栈技术综述出炉~

来源： PaperAgent跨模态对齐和推理为Multimodal RAG：多模态RAG带来了独特的挑战：提出了一个多模态RAG系统的通用框架；并对多模态RAG系统进行了系统且全面的分析，涵盖了数据集、评估指标、基准测试、评估方法以及检索、融合、增强和生成方面的创新多模态检索增强生成（RAG）通用框架，突出展示了每个阶段所采用的先进技术和方法。查询预处理、多模态数据库、检索策略（模态为中心）、...

2025-02-24 16:31:05 51

原创太快了！DeepSeek 满血版来了！免费且不限次数！

最近 DeepSeek 太火，问题来了，你是不是经常遇到这个情况？服务器繁忙，请稍后再试。想要使用满血版DeepSeek怎么办？！问小白轻松帮你搞定！主打一个不卡、零延迟、不限次、全免费、随便用！问小白一直致力于帮助用户获取高质量信息，凭借其强大的联网搜索能力和成熟稳定的技术架构，在 2023 年 3 月率先采用自研 Moe 模型架构，对 Deepseek 的 Moe 模型也非常熟悉。 APP 以...

2025-02-21 17:54:38 327

转载 DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

来源：量子位用代码训练大模型思考，其他方面的推理能力也能提升。DeepSeek团队最新研究，利用300多万个实例，将代码转换成思考过程，构建出数据集CODEI/O，对Qwen、Llama等模型进行了训练。结果，在各种类型的推理任务当中，模型性能都取得了全面提升，包括在非代码类的推理任务上，也展现出了良好的迁移能力。研究团队认为，在代码当中暗含了不同类型场景的思考过程，于是想要把这种思考过程“提取”...

2025-02-21 16:39:11 47

转载港大百度打造超长视频理解引擎VideoRAG

来源：机器之心今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制，仅凭单张RTX 3090 GPU (24GB) 就能高效理解数百小时的超长视频内容。论文标题：VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos论文链接：h...

2025-02-21 16:39:11 283

转载本科毕业6年半，李钦宾已任985高校博导

2月20日记者从华中科技大学教师主页获悉此前担任新加坡国立大学研究员的李钦宾已于今年1月起担任华中科技大学计算机科学与技术学院教授、博士生导师据官网资料显示，李钦宾，华中科技大学教授、博士生导师，国家级青年人才。2018年6月本科毕业于华中科技大学，2022年博士毕业于新加坡国立大学，并曾分别于加州大学伯克利分校和新加坡国立大学担任博士后和研究员。李钦宾李钦宾主要研究方向为分布式学习和大模型系统，...

2025-02-20 16:32:08 44

转载重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

来源：机器之心嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将DeepSeek的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法，靠着 GRPO（Generative Reward Processing Optimization）强化学习方法，在纯文本大模型上...

2025-02-20 16:32:08 72

转载刚刚！DeepSeek团队丢出注意力新机制重磅论文

来源：机器之心DeepSeek 新论文来了！相关消息刚刚发布到 ???? 就吸引了大量用户点赞、转发、评论三连。据介绍，DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制，并且还具有与硬件对齐的特点。新研究发布两个小时，就有近三十万的浏览量。现在看来，DeepSeek 发布成果，比 OpenAI 关注度都高。论文标题：Nat...

2025-02-18 19:51:17 40

转载马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

来源：新智元【导读】马斯克口中全世界最聪明大模型Grok-3，终于震撼登场！20万块GPU训出的模型，实属全球首次。果然，Grok-3已火速屠榜多个排行榜，击败o3-mini（high）和DeepSeek-R1。人类史上首个在20万块GPU上训出的模型终于问世！刚刚，马斯克带队三位xAI成员在线开启直播，官宣Grok-3全家桶——Grok-3（Beta）、Grok-3 mini首个推理模型Grok...

2025-02-18 19:51:17 71

转载 30余家大模型厂商共同参与了国内首部AI知产标准，科技企业速来加入！

来源 | 智合标准化建设作者 | 智合标准中心在德国人工智能内容治理公司Acrolinx于2023年8月对86家财富500强企业的调查中，30%的受访者认为，知识产权是企业对于使用生成式AI的首要担忧。究其根本，现有生成式AI技术与应用在著作权、专利权、商标权等方面都面临法律挑战。伴随生成式AI产业的快速发展，有关生成式AI的知识产权争议此起彼伏，难以取得行业共识。标准作为凝聚产业共识、明晰责任分...

2025-02-12 20:00:00 43

转载全新超稀疏架构，推理成本比MoE直降83%！

来源：量子位字节出了个全新架构，把推理成本给狠狠地打了下去！有多狠？推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。这个全新的稀疏模型架构叫做UltraMem，有效地解决了目前主流的MoE架构和PKM架构所存在的局限性。例如MoE在做推理时，较小的batch size会激活全部专家，导致访存急剧上升，推理延迟增加；而PKM虽然减少了访存开销，但效果较差且扩展能力有限。实验结果表明，训...

2025-02-12 15:01:36 46

转载 4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

来源：新智元【导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！近日，来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B，通过简单的强化学习（RL）微调，得到了全新的DeepS...

2025-02-12 15:01:36 65

转载 DeepSeek爆火，AI圈的招聘市场已经疯掉了……

DeepSeek爆火，正在重塑AI圈！新开源模型DeepSeek-R1仅用OpenAI十分之一的成本，就达到顶尖大模型的性能，高性能低成本让企业接入AI成为必然趋势，到2030年AI人才缺口将有400万！稀缺也意味着高薪资。DeepSeek最近热招的大模型全栈工程师等AI核心岗位，年薪高达百万！大模型实习生日薪也有500-1000元，直接拉高技术行业薪资标准！但也别高兴太早，DeepSeek的爆发...

2025-02-11 12:04:11 34

转载诺奖得主放话：DeepSeek是中国最好AI模型，但没任何科学进步！

来源：新智元【导读】xAI、谷歌DeepMind和Anthropic的CEO们纷纷对DeepSeek的技术创新性提出质疑，认为其并未带来实质性的科学突破。AI大佬纷纷泼冷水，到底是技术讨论还是各怀目的？就在今天，谷歌DeepMind的首席执行官Demis Hassabis对DeepSeek进行了一番「捧杀」——「它可能是中国最好的工作，但没有展示任何新的科学进展。」Hassabis首先称DeepS...

2025-02-11 12:04:11 48

转载关于zero-rl的碎碎念和想法

作者：haotian@知乎清华大学信息与通信工程硕士相比cold-start-sft-->rl的传统流程，笔者更偏爱base上的rl。base上的rl在理论和实践层面都对未来模型的优化方向有重要的指导意义。理论层面policy-gradient+kl-constraint可以推导出residual-energy-based-model的形式。有了该形式，问题转变为如何高效的从最优分...

2025-02-10 14:55:16 29

转载张俊林：从Deepseek R1看Scaling Law的未来

作者：张俊林，中科院软件所博士Scaling Law过去是、现在是、将来也会继续是推动大模型快速发展的第一动力，我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的：只要目前Scaling Law仍然成立，其实就没有看衰大模型未来发展的理由，如果硬要看衰，那被打脸的概率相当之大，真正可以看衰大模型未来发展的时机是什么？如果什么时候发现Scaling Law熄火了，此时看衰，赌对的概率会大很多。...

2025-02-10 14:55:16 50

转载看DeepSeek R1的论文时，我突然想起了AlphaGo

作者：真中合欢@知乎等了好久，终于等来R1的论文，我在当天晚上第一时间拜读。整篇论文的实验和理论给我一种简洁的优雅，和DeepSeek-V3那篇论文的感觉完全不同。读论文的过程中，我就想起了曾经看过的AlphaGo。于是也想发表一些浅显的看法，有不对的地方欢迎指出。Reward设计读完这篇论文，或者说读论文的过程中，R1的reward模型就给我留下了深刻印象：基于规则的奖励模型。R1在文中提到，自...

2025-02-09 12:26:30 25

转载吴恩达押注Agent新成果官宣！

来源：量子位刚刚，AI大牛吴恩达官宣创业公司新成果——Agentic Object Detection（Agent目标检测）。无需标注训练数据，模型仅通过推理就能在图片中定位指定物体。举个栗子，在一张长满草莓的图片中，提示词为“未成熟的草莓”，AI模型立马分分钟帮你找出。据吴恩达介绍，以前视觉AI要想识别物体，需要在大量标注数据上训练，而现在AI只需瞥一眼图片，短暂思考后（当前约20~30s）就能...

2025-02-08 17:33:54 47

转载 DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

来源：机器之心RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。GRPO 是一种...

2025-02-08 17:33:54 108

转载美国放走AI界的「钱学森」，哈佛教授痛心疾首！英伟达痛失DeepSeek关键人才

来源：新智元【导读】最近，一位哈佛教授痛心疾首地曝出，DeepSeek本来有机会诞生在美国？原本DeepSeek的工程师可以拿到英伟达的全职offer，美国却没有将他留住，导致「钱学森回国」的故事再一次上演，美国跟「国运级AI」擦肩而过！DeepSeek给美国造成的威胁，还在加剧。就在昨天，DeepSeek的日活数已经达到ChatGPT的23%，每日应用下载量接近500万！a16z联创Marc A...

2025-02-06 15:58:45 108

转载冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

来源：机器之心在 DeepSeek 的强烈攻势下，这次轮到谷歌坐不住了。本周三，该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。下图为三个模型在通用、代码、推理、事实性、多语言、数学、长...

2025-02-06 15:58:45 27

转载 DeepSeek背后的数学：深入解析GRPO

来源：MLSys2024本文深入探讨群体相对策略优化（GRPO）背后的数学原理，这是驱动DeepSeek卓越推理能力的核心强化学习算法。我们将解析GRPO的工作原理、关键组成部分，以及它为何成为训练先进大规模语言模型的颠覆性技术。GRPO的基础什么是GRPO？群体相对策略优化（GRPO）是一种强化学习（RL）算法，专门设计用于增强大规模语言模型（LLM）的推理能力。与传统的RL方法不同，后者通常依...

2025-02-05 10:03:31 351

转载 o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观

来源：机器之心AI 圈的头条被 DeepSeek 承包了十几天，昨天，OpenAI 终于坐不住了，推出了全新推理模型系列 o3-mini。不仅首次向免费用户开放了推理模型，而且相比之前的 o1 系列，成本更是降低了 15 倍之多。OpenAI 也称这是其推理模型系列中最新、最具成本效益的模型：刚刚上线，已经有网友迫不及待的拿它和席卷整个大模型圈的国产大模型 DeepSeek R1 进行对比了。前段...

2025-02-02 15:34:47 44

空空如也

空空如也