- 博客(844)
- 资源 (9)
- 收藏
- 关注
原创 DeepSeek-R1复现方案梳理
在 100 步时,解方程的成功率约为 25%,并且模型开始用文字进行 “推理”;近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
2025-02-12 22:36:59
2068
原创 从零搭建机器学习平台Kubeflow
来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。
2022-12-25 03:59:33
10372
5
原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...
2017-09-20 14:15:00
24689
原创 RAG 精度提升方法汇总【2025年版本】
本文系统梳理了企业级 RAG 面临的典型挑战,并介绍了相应的解决方案。虽然搭建基础 RAG 系统的门槛在降低,但实际应用中对 RAG 质量的要求却越来越高。希望这篇文章能为正在构建 RAG 系统的开发者提供有价值的参考。
2026-01-07 13:12:43
568
原创 【前沿速递】12 种 RAG(检索增强生成)的新型高级架构与方法
曾是极其热门的话题之一。而本周非常幸运地看到了一些关于 RAG 的真正令人兴奋的新研究让我们一起来看看近期出现的。
2026-01-06 10:37:54
856
原创 从10万到1000万token:RLMs如何实现百倍上下文扩展!下一代AI Agent的底层架构
语言模型中存在一个众所周知但难以描述的现象,称为"上下文腐化"。Anthropic 将上下文腐化定义为"随着上下文窗口中 token 数量的增加,模型从该上下文中准确回忆信息的能力下降",但社区中的许多研究人员知道这个定义并没有_完全_切中要害。例如,查看像RULER这样流行的大海捞针基准测试,大多数前沿模型实际上表现非常好(一年前的模型就能达到 90% 以上)。但有人注意到。
2026-01-04 22:00:53
677
原创 从第一性原理推导DPO:数学原理到TRL实战的完整指南
基于人类反馈的强化学习(RLHF)已经成为GPT-4和Claude等大型语言模型训练流程中不可或缺的最后一步。它能够确保模型的输出符合人类在对话质量和安全性等方面的期望。然而,传统的RLHF方法给自然语言处理领域引入了强化学习特有的复杂性:不仅需要构建一个有效的奖励函数并训练价值估计模型,还要确保最终的语言模型不会偏离原始模型太远,否则容易产生无意义的文本。整个过程涉及众多相互关联且动态变化的组件,实际操作起来颇具挑战性。2023年,Rafailov、Sharma、Mitchell等研究者在论文《Direc
2026-01-04 13:54:46
761
原创 使用 GRPO 和 OpenEnv 微调小型语言模型实现浏览器控制
浏览器控制是指语言模型通过生成一系列动作(点击元素、输入文本、滚动页面)来浏览和操作网站,从而完成用户指定任务的能力,比如预订机票、填写表单或从网页提取信息。视觉语言模型(VLM)可以接收截图和用户目标作为输入,然后生成一系列动作来实现目标。纯文本语言模型可以接收页面的 HTML 代码作为输入,用同样的方式进行操作。
2025-12-30 14:47:15
707
原创 别再怪模型了!同一个模型,官方 API 零错误,为什么你vLLM 部署却崩了?Kimi K2 调试实录
AI Agent 工作流正在重塑人们与大语言模型的交互方式,而稳定可靠的工具调用(tool calling)能力是驱动这场变革的核心引擎。Moonshot AI 的 Kimi K2 模型以其出色的工具调用能力而闻名。为了验证它在高性能 vLLM 推理引擎上的表现,作者使用了官方的基准测试。目标很明确:复现 Kimi K2 在 Moonshot AI 官方 API 上近乎完美的表现。官方接口设立了极高的标准,在执行数千次工具调用时,Schema 校验错误为零——这是可靠性的黄金标准。
2025-12-29 18:14:30
817
原创 大模型对齐核心技术:从第一性原理完整推导 PPO 算法!
近期关于 DPO、GRPO 和 RLVR 等强化学习方法在大语言模型(LLM)后训练中的研究成果令人瞩目。对于刚接触强化学习的研究者来说,从 Proximal Policy Optimization(PPO)入手是个不错的选择。这正是 OpenAI 在 InstructGPT 论文中展示的用于改进 LLM 对齐的算法。理解 PPO 能帮助建立策略梯度方面的正确心智模型,为后续学习基于类似思想构建的新型 LLM 专用强化学习方法打下基础。强化学习涉及大量数学推导。本文将通过详细的数学推导从第一性原理构建 PP
2025-12-28 14:39:25
800
原创 Prompt Caching:让LLM Token成本降低10倍,这是怎么做到的?
在撰写这篇文章时,无论是OpenAI还是Anthropic的API,缓存输入Token的单价都比常规输入Token便宜10倍。,提示词缓存可以**“为长提示词减少高达85%的延迟”**。在实际测试中发现,对于足够长的提示词,这一说法确实成立。测试中向Anthropic和OpenAI发送了数百次请求,当所有输入Token都被缓存时,首个Token的响应时间显著缩短。看到这些渐变文字和漂亮图表后,是否想过一个问题…
2025-12-26 18:46:19
901
原创 AI 智能体大爆发!500+ Github开源实战项目全索引:从框架选型到行业落地
这个仓库是一个全行业 AI 智能体(AI Agents)应用案例的深度集锦。它不仅涵盖了医疗、金融、教育、零售等多个垂直领域,更宝贵的是,它针对目前主流的智能体开发框架(如 CrewAI, AutoGen, Agno, LangGraph)提供了直接跳转到对应开源代码库的链接。内容主要分为两大维度:展示 AI Agent 如何在具体业务中解决问题(如:自动交易、法律合同审查、智能农业助手)。针对不同开发框架的设计模式,提供代码实现参考(如:多智能体协作、自反思循环、长上下文处理)。
2025-12-25 15:42:11
278
原创 清华唐杰:AI 应用的第一性原理不再创造新 App,而是制造“数字员工”
领域大模型是企业构建 Know-how 护城河的阶段性产物,随着 AGI 的演进,领域数据与流程终将被通用的 AGI 浪潮卷入并消化。:大模型需模拟人类从短期到长期的记忆过程,利用 Context、RAG 和模型参数分别对应不同阶段,难点在于知识的压缩与动态参数更新。:AI 应用的核心不在于创造新 App,而在于 AGI 对人类工种的替代与辅助,2026 年将迎来劳动力替代的爆发年。:构建模型自评机制是实现自迭代的关键,在线学习将打破定时重训的局限,成为下一个 Scaling 范式。
2025-12-24 11:14:31
198
原创 拒绝“无效思考”!UIUC、MIT 等顶级高校发布 LORE:大模型推理也得讲“基本法”?
目前的模型训练主要靠海量的 CoT(思维链)数据,但这些数据大多是启发式生成的,没有明确的规则告诉模型:“多难的问题该花多少精力”。这导致了模型在推理预算分配上的低效。动机很简单:我们能不能用数学理论来定义什么是“合理的推理行为”?如果模型能像人一样,根据问题的复杂度动态调整思考量,它的性能会不会更上一层楼?这篇文章最大的贡献在于,它给一直处于“玄学”状态的大模型推理过程提供了一把科学的尺子。它告诉我们,一个优秀的 A大模型不应该只是回答正确,它的思考过程也必须是“合乎比例”的。
2025-12-23 10:21:05
769
原创 2025 LangChain智能体工程年度报告发布!
2026年的Agent已经不是PPT里的概念了,它正在变成一种像“Excel”一样普及的生产工具。
2025-12-18 11:53:24
843
原创 Ollama 进阶指南
本文探索了Ollama 的更高级交互选项。我们测试了Ollama API的工作方式,以及重要的参数和配置,确保模型的最佳性能。定制模型,让它更好地适应特定用例,在 AI 驱动的应用程序中提供更好的用户体验。
2025-12-12 23:28:52
713
原创 什么是智能体工程Agent Engineering?让 AI从“能跑“到“敢用“的关键
智能体工程是一个迭代过程,将不确定的大语言模型系统逐步打磨成可靠的生产级应用。构建、测试、上线、观察、优化、重复。关键在于,上线不是终点,而是获取新洞察、改进智能体的方式。要做出真正有意义的改进,必须了解生产环境中到底发生了什么。这个循环转得越快,智能体就越可靠。产品思维定义范围并塑造智能体行为。编写驱动智能体行为的提示词(通常有成百上千行)。这里需要良好的沟通和写作能力深入理解智能体要完成的"任务本质"定义评估标准,测试智能体是否按预期完成任务工程能力构建让智能体达到生产级标准的基础设施。
2025-12-11 21:41:39
995
原创 Everything is Context:Agentic 文件系统来了,让 AI 智能体像管理文件一样管理记忆和工具
上下文工程需要从"临时拼凑"升级为"系统工程"。当前主流框架虽然提供了记忆、工具等功能,但都是各自为政、缺乏统一治理的。论文提出的文件系统抽象,就像给混乱的施工现场搭了一套脚手架——所有材料(记忆、工具、知识库、人类输入)都有固定的位置,所有操作都有标准的流程,所有变更都有清晰的记录。这种"一切皆文件"的思想并不新鲜(Unix 从 1970 年代就在用了),但应用到 智能体 上下文管理却是个创新。可追溯(每一步都有据可查)、可审计(所有操作都有日志)、可演化(新组件可无缝接入)。
2025-12-09 21:54:21
1195
原创 干货!17种大模型智能体架构全解析,从入门到精通一站搞定
大模型智能体领域发展超快,但很多资料要么太抽象,要么太理论化。这个项目就是为了给开发者、研究人员和AI爱好者提供一条结构化、实用、教学性强的学习路径,帮大家真正掌握构建智能系统的技能。每种架构不只是讲解,而是端到端实现在可运行的Jupyter笔记本里。笔记本按顺序排列,从基础模式逐步进阶到高级的多智能体和自我认知系统。我们不只是造智能体,还要测量它们的表现。大多数笔记本都用了强大的模式来提供量化、客观的性能反馈,这在生产环境中超级重要。
2025-12-08 13:38:43
939
原创 2025 OpenRouter大模型使用报告:100万亿Token调用背后的真相
过去一年,大语言模型(LLM)的演进和实际应用迎来了转折点。随着 2024 年 12 月 5 日首个被广泛采用的推理模型 o1 发布,该领域从单次模式生成转向多步推理,加速了部署、实验和新型应用的诞生。然而,尽管这种转变发生得如此迅速,我们对这些模型在实践中如何被实际使用的经验理解却相对滞后。在本研究中,我们利用 OpenRouter 平台(一个提供多种LLM 推理服务的供应商),分析了超过 100 万亿 Token 的真实 LLM 交互数据,涵盖了不同任务、地域和时间。
2025-12-06 21:29:57
1251
原创 总结大模型幻觉成因及检测的相关研究进展
随着大语言模型在自然语言处理、多模态生成等领域的广泛应用,其生成内容中存在的“幻觉”问题日益凸显,即模型生成看似合理但与输入事实或世界知识不符的信息。这一问题严重影响了模型的可信度与可靠性,已成为制约大模型落地应用的关键瓶颈。本文旨在系统梳理大模型幻觉问题的研究进展。首先,从模型内部机制与外部数据环境两个层面,综述幻觉的主要成因,包括知识边界模糊、训练数据噪声、自回归生成累积误差、多模态对齐偏差等。
2025-12-05 10:44:57
1241
原创 如何评估智能体效果呢?LangChain 团队的经验总结
在开发和部署这些 agent 的过程中,团队为每个应用都配置了评估系统,积累了不少实战经验。先解释几个后文会用到的概念。
2025-12-04 09:31:45
836
原创 DeepResearch离真正实用还有多远?OPPO团队揭示14种核心失败模式
*深度研究智能体(Deep Research Agents, DRAs)**旨在自动化生成分析师级别的研究报告,通过迭代式的信息检索和综合分析来完成复杂的研究任务。这类系统需要具备网络规模的信息搜索、数据检索和内容合成能力,能够产出传统上需要数小时人工劳动才能完成的综合性报告。本文介绍了FINDER和DEFT,作为首个在任务和过程层面统一评估和诊断深度研究智能体的框架。通过整合419项基于检查清单的评估和14类失败分类法,研究揭示了当前智能体的核心问题不在于理解指令,而在于证据信息检索、综合和推理韧性。
2025-12-03 11:00:44
1017
原创 DeepSeek-V3.2技术报告解读:开源大模型的逆袭之战——如何用10%算力追平GPT-5
近几个月来,AI领域出现了一个令人担忧的趋势:尽管开源社区在不断进步,但闭源模型(如GPT-5、Gemini-3.0-Pro)的性能提升速度明显更快,开源与闭源之间的差距不是在缩小,而是在扩大。架构效率瓶颈:传统的注意力机制在处理长序列时效率极低,限制了模型的部署和训练训练资源不足:开源模型在后训练(post-training)阶段的计算投入严重不足智能体能力落后:在实际部署的AI Agent场景中,开源模型的泛化能力和指令遵循能力明显弱于闭源模型架构效率是开源模型竞争力的关键。
2025-12-02 11:11:47
1069
原创 Chatgpt三周年了:大模型三年发展的里程碑
Sam Altman在2022年12月的推文中坦言,运行这些模型的计算成本“令人咋舌”(eye-watering),每天的成本估算高达10万美元,并预示了未来商业化的必然性 2。这一看似简单的聊天机器人界面,实则隐藏了RLHF(基于人类反馈的强化学习)带来的巨大对齐优势,解决了过往GPT-3模型在指令遵循上的痛点。更重要的是,GPT-4被设计为多模态模型,虽然最初仅开放文本输入,但其架构已具备处理图像的能力,预示了VLM(视觉语言模型)时代的到来。到了2025年,焦点转向了谁的模型更“聪明”且“便宜”。
2025-12-01 17:22:32
1251
原创 小模型也能当“大脑“!NVIDIA提出ToolOrchestra:用8B模型指挥AI工具团队,性能超GPT-5还省钱
解决复杂问题不一定需要一个超大的全能模型,一个小而精的"指挥官"模型协调各种专业工具和模型可能更高效。
2025-12-01 10:58:06
650
原创 DeepResearch助手进化论:清华、腾讯等联合发布深度研究系统综述
发布时间: 2025年11月13日关键词: 深度研究、大型语言模型、信息检索论文仓库: https://github.com/mangopy/Deep-Research-Survey大型语言模型已经从简单的文本生成工具快速演进为强大的问题解决系统。然而,许多开放性任务对模型提出了更高的要求:需要批判性思维、整合多源信息、提供可验证的输出。这些需求已经超出了单次提示或标准检索增强生成技术的能力范围。为了应对这一挑战,近期众多研究开始探索深度研究方法。这种方法将大语言模型的推理能力与搜索引擎等外部工具相结合,使
2025-11-30 00:58:02
400
原创 Claude Agent Skills第一性原理深度解析
Claude 利用Skills来提升特定任务的执行效果。Skills被定义为包含指令、脚本和资源的文件夹,Claude可以在需要时加载它们。Claude 采用声明式、基于提示词的系统来实现Skills的发现和调用。AI 模型(Claude)根据系统提示中提供的文本描述来决定是否调用Skills。在代码层面,不存在算法驱动的Skills选择或 AI 驱动的意图检测。所有的决策都完全基于Skills描述,在 Claude 的推理过程中完成。Skills并非可执行代码。它们不。
2025-11-25 22:28:51
1073
原创 Agent 设计的实践挑战与经验总结
近期关于智能体(Agent)构建的实践经验表明,这项工作的复杂度远超预期。随着实际应用场景的深入,许多看似简单的技术决策都暴露出需要权衡的地方。本文将从SDK选择、缓存策略、循环强化等多个维度,分享构建生产级智能体过程中的关键发现。
2025-11-24 21:11:07
84
原创 大模型参数高效微调技术演进与综合性能分析:从LoRA到最新架构
本综述系统梳理了大模型参数高效微调技术的演进历程与综合性能表现。随着大模型规模的快速增长,传统全参数微调方法面临计算资源消耗大、存储成本高等挑战,参数高效微调技术应运而生。本文首先回顾了从LoRA为代表的早期适配器方法到当前最新架构的技术发展脉络,分析了各类方法的核心原理与设计思想。在此基础上,从技术维度对现有方法进行分类比较,包括低秩适配、前缀调优、提示调优等主要技术路线。通过系统评估各类方法在不同任务场景下的性能表现,总结了参数高效微调技术在模型压缩、训练效率、泛化能力等方面的优势与局限。
2025-11-21 15:13:42
853
1
原创 Context Engineering:Weaviate构建智能体系统的完整指南
动态决策信息流:根据学到的内容决定下一步做什么跨多次交互维护状态:记住做过什么,用历史信息指导未来决策根据结果调整方法:一种策略不行就尝试不同的方法自适应使用工具:从可用工具中选择并以未明确编程的方式组合使用Context Engineering 不仅仅是提示大型语言模型、构建检索系统或设计 AI 架构。它是构建互联的、动态的系统,能够在各种用途和用户中可靠地工作。Agents作为系统的决策大脑将混乱的人类请求转化为可操作的意图Retrieval连接模型与事实和知识库Memory。
2025-11-20 19:04:25
1071
原创 Grok 4.1 正式发布:情感智能与创意写作的新标杆
Grok 4.1 现已向所有用户开放,可以通过 grok.com、𝕏平台以及 iOS 和 Android 应用访问。该模型已在自动模式下立即推出,用户也可以在模型选择器中直接选择"Grok 4.1"。xAI 团队推出的 Grok 4.1 在实际应用层面带来了显著提升。这个新版本在创意、情感和协作交互方面表现出色,对细微意图的感知更加敏锐,交流起来更有吸引力,性格特征也更连贯,同时完全保留了前代模型的敏锐智能和可靠性。
2025-11-18 09:37:58
2361
原创 RAG在医疗领域的批判性评估、推荐算法等最新研究进展
这周的论文涵盖面很广,从生产环境的系统优化到学术研究的深度评估,每一篇都在各自领域带来了新的见解。特别值得关注的是医疗RAG的评估研究,它提醒大家不要盲目套用RAG,而要针对具体场景做精心设计。想深入了解某个方向的话,建议点开相关论文仔细研读。这个领域的进展速度真的很快,保持关注才能跟上节奏。
2025-11-17 10:46:11
792
原创 Structured RAG:解决传统 RAG 的准确性盲区
想深入研究技术细节?论文链接:https://arxiv.org/abs/2511.08505v1。
2025-11-15 16:23:18
1070
原创 钉钉DeepResearch:让智能体系统像人一样持续学习的企业级智能框架
本文提出了——一个统一的多智能体智能框架,专门面向真实企业环境,能够实现深度研究、异构表格推理和多模态报告生成。
2025-11-14 18:02:30
1042
原创 GPT-5.1 发布:更智能也更“人性化“的 AI 助手
2025年11月12日,OpenAI 发布了 GPT-5 系列的重要更新版本 GPT-5.1,包括 GPT-5.1 Instant(即时版)和 GPT-5.1 Thinking(思维版)两个变体。这次更新不仅在技术能力上有所提升,更值得关注的是其在对话风格上的显著变化,而这一变化正在社区中引发激烈讨论。
2025-11-13 15:56:09
1008
原创 MUVERA:让RAG系统中的多向量检索像单向量一样高效
在向量数据库和信息检索领域,多向量嵌入模型(如 ColBERT、ColPali)凭借其强大的语义捕获能力正在成为主流选择。这类模型能够保留文本的词元级别含义,或是识别图像不同部分的信息特征。然而,它们也带来了显著的性能挑战:庞大的内存占用和较慢的检索速度。Weaviate 在 1.31 版本中引入的 MUVERA 编码算法,正是为了解决这些问题而生。多向量嵌入的核心优势在于其细粒度的语义表达能力。相比单向量模型将整个文档压缩成一个固定长度的向量,多向量模型为文档的每个词元或图像块生成独立的向量表示。这种设计
2025-11-12 10:58:23
1118
原创 当智能体开始“编造自己的经验”:Scaling Agent Learning via Experience Synthesis 解读
DreamGym 通过使强化学习在大语言模型(LLM)代理的先前难以处理的领域中实现有效训练,同时大幅减少可行领域的数据和计算需求,从而解决了强化学习中的基本可伸缩性挑战。该方法表明,关注与学习相关的信号而非环境保真度可以带来更高效、更有效的代理训练。该框架能够在“非强化学习就绪”环境中实现强化学习,同时在传统强化学习设置中提供显著的效率提升,这使其成为扩展自主代理开发的实用解决方案。
2025-11-09 13:14:20
952
原创 智能体AI的六大核心设计模式
随着大模型技术的成熟,智能体正在从概念走向实际应用。与传统的单次问答系统不同,智能体能够自主规划、使用工具、反思决策,并通过多轮交互完成复杂任务。本文探讨当前业界最主流的六种智能体设计模式,这些模式已经在各大AI产品中得到验证和应用,为开发者提供了构建可靠智能体系统的技术参考。
2025-11-08 20:50:13
677
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅