- 博客(818)
- 资源 (9)
- 收藏
- 关注
原创 DeepSeek-R1复现方案梳理
在 100 步时,解方程的成功率约为 25%,并且模型开始用文字进行 “推理”;近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
2025-02-12 22:36:59
1938
原创 从零搭建机器学习平台Kubeflow
来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。
2022-12-25 03:59:33
10294
5
原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...
2017-09-20 14:15:00
24635
原创 Agent 设计的实践挑战与经验总结
近期关于智能体(Agent)构建的实践经验表明,这项工作的复杂度远超预期。随着实际应用场景的深入,许多看似简单的技术决策都暴露出需要权衡的地方。本文将从SDK选择、缓存策略、循环强化等多个维度,分享构建生产级智能体过程中的关键发现。
2025-11-24 21:11:07
2
原创 大模型参数高效微调技术演进与综合性能分析:从LoRA到最新架构
本综述系统梳理了大模型参数高效微调技术的演进历程与综合性能表现。随着大模型规模的快速增长,传统全参数微调方法面临计算资源消耗大、存储成本高等挑战,参数高效微调技术应运而生。本文首先回顾了从LoRA为代表的早期适配器方法到当前最新架构的技术发展脉络,分析了各类方法的核心原理与设计思想。在此基础上,从技术维度对现有方法进行分类比较,包括低秩适配、前缀调优、提示调优等主要技术路线。通过系统评估各类方法在不同任务场景下的性能表现,总结了参数高效微调技术在模型压缩、训练效率、泛化能力等方面的优势与局限。
2025-11-21 15:13:42
703
原创 Context Engineering:Weaviate构建智能体系统的完整指南
动态决策信息流:根据学到的内容决定下一步做什么跨多次交互维护状态:记住做过什么,用历史信息指导未来决策根据结果调整方法:一种策略不行就尝试不同的方法自适应使用工具:从可用工具中选择并以未明确编程的方式组合使用Context Engineering 不仅仅是提示大型语言模型、构建检索系统或设计 AI 架构。它是构建互联的、动态的系统,能够在各种用途和用户中可靠地工作。Agents作为系统的决策大脑将混乱的人类请求转化为可操作的意图Retrieval连接模型与事实和知识库Memory。
2025-11-20 19:04:25
1021
原创 Grok 4.1 正式发布:情感智能与创意写作的新标杆
Grok 4.1 现已向所有用户开放,可以通过 grok.com、𝕏平台以及 iOS 和 Android 应用访问。该模型已在自动模式下立即推出,用户也可以在模型选择器中直接选择"Grok 4.1"。xAI 团队推出的 Grok 4.1 在实际应用层面带来了显著提升。这个新版本在创意、情感和协作交互方面表现出色,对细微意图的感知更加敏锐,交流起来更有吸引力,性格特征也更连贯,同时完全保留了前代模型的敏锐智能和可靠性。
2025-11-18 09:37:58
1486
原创 RAG在医疗领域的批判性评估、推荐算法等最新研究进展
这周的论文涵盖面很广,从生产环境的系统优化到学术研究的深度评估,每一篇都在各自领域带来了新的见解。特别值得关注的是医疗RAG的评估研究,它提醒大家不要盲目套用RAG,而要针对具体场景做精心设计。想深入了解某个方向的话,建议点开相关论文仔细研读。这个领域的进展速度真的很快,保持关注才能跟上节奏。
2025-11-17 10:46:11
702
原创 Structured RAG:解决传统 RAG 的准确性盲区
想深入研究技术细节?论文链接:https://arxiv.org/abs/2511.08505v1。
2025-11-15 16:23:18
1036
原创 钉钉DeepResearch:让智能体系统像人一样持续学习的企业级智能框架
本文提出了——一个统一的多智能体智能框架,专门面向真实企业环境,能够实现深度研究、异构表格推理和多模态报告生成。
2025-11-14 18:02:30
967
原创 GPT-5.1 发布:更智能也更“人性化“的 AI 助手
2025年11月12日,OpenAI 发布了 GPT-5 系列的重要更新版本 GPT-5.1,包括 GPT-5.1 Instant(即时版)和 GPT-5.1 Thinking(思维版)两个变体。这次更新不仅在技术能力上有所提升,更值得关注的是其在对话风格上的显著变化,而这一变化正在社区中引发激烈讨论。
2025-11-13 15:56:09
774
原创 MUVERA:让RAG系统中的多向量检索像单向量一样高效
在向量数据库和信息检索领域,多向量嵌入模型(如 ColBERT、ColPali)凭借其强大的语义捕获能力正在成为主流选择。这类模型能够保留文本的词元级别含义,或是识别图像不同部分的信息特征。然而,它们也带来了显著的性能挑战:庞大的内存占用和较慢的检索速度。Weaviate 在 1.31 版本中引入的 MUVERA 编码算法,正是为了解决这些问题而生。多向量嵌入的核心优势在于其细粒度的语义表达能力。相比单向量模型将整个文档压缩成一个固定长度的向量,多向量模型为文档的每个词元或图像块生成独立的向量表示。这种设计
2025-11-12 10:58:23
1022
原创 当智能体开始“编造自己的经验”:Scaling Agent Learning via Experience Synthesis 解读
DreamGym 通过使强化学习在大语言模型(LLM)代理的先前难以处理的领域中实现有效训练,同时大幅减少可行领域的数据和计算需求,从而解决了强化学习中的基本可伸缩性挑战。该方法表明,关注与学习相关的信号而非环境保真度可以带来更高效、更有效的代理训练。该框架能够在“非强化学习就绪”环境中实现强化学习,同时在传统强化学习设置中提供显著的效率提升,这使其成为扩展自主代理开发的实用解决方案。
2025-11-09 13:14:20
920
原创 智能体AI的六大核心设计模式
随着大模型技术的成熟,智能体正在从概念走向实际应用。与传统的单次问答系统不同,智能体能够自主规划、使用工具、反思决策,并通过多轮交互完成复杂任务。本文探讨当前业界最主流的六种智能体设计模式,这些模式已经在各大AI产品中得到验证和应用,为开发者提供了构建可靠智能体系统的技术参考。
2025-11-08 20:50:13
616
原创 我用大模型做了个网站,被大佬一眼看穿:“又是蓝紫色!“
意识到这个问题之后,我现在用大模型做网站都会先问自己:"这配色是我想要的,还是大模型的默认选择?"每次生成代码之前,都会先写好明确的提示词,告诉它我要什么风格、什么颜色、什么感觉。效果确实好多了。至少现在做出来的东西,不会被人一眼看穿"哦,大模型生成的"。说到底,工具是死的,人是活的。大模型给了我们前所未有的效率,但也容易让我们陷入思维惰性。真正能让设计出彩的,永远是你对"为什么"的思考,而不是大模型的"快速生成"。所以各位用大模型做网站的朋友们,下次生成代码之前,先问问自己:我真的想要蓝紫色吗?
2025-11-07 22:08:03
791
原创 Memento:让大模型智能体“自己变聪明”,不用微调模型权重
如果一个智能体能像人一样从经验中学习,而不是反复被训练,它会是什么样?Memento 给出了答案。
2025-11-04 22:48:36
935
原创 智能体经验分享:基于大模型(LLM) 的自主智能体
基于大模型(LLM) 的自主智能体 | Lil’Log原文链接:https://lilianweng.github.io/posts/2023-06-23-agent/以大模型(LLM) 作为核心控制器的智能体 (Agent) 概念非常引人注目。目前已有一些概念验证演示,如和,它们都是鼓舞人心的范例。LLM 的潜力远不止于生成高质量的文案、故事、文章和程序,它还可以被视为一个强大的解决通用问题手段。
2025-11-03 15:58:47
1004
原创 强化学习(RL)简介及其在大语言模型中的应用
想象一下训练一只狗。想教它坐下。可能会说"坐下!",如果狗坐下了,就给它零食和夸奖。如果没坐下,可能轻轻引导它或者再试一次。时间长了,狗就学会了把坐下这个动作和正面奖励(零食和夸奖)联系起来,下次听到"坐下!"就更可能照做。在强化学习里,这种反馈被称为奖励(reward)。这就是强化学习的基本思路!只不过这里不是狗,而是语言模型(在强化学习中称为智能体 agent),也不是人在训练,而是**环境(environment)**在给反馈。
2025-10-30 21:58:19
1090
原创 通义DeepResearch技术报告解读
通义深度研究:开源AI研究助手的新里程碑最近AI研究领域有个很有意思的现象,就是那些最厉害的AI研究助手,比如OpenAI的DeepResearch、谷歌的Gemini DeepResearch,全都是闭源的。这就像大家都在说"我做出了很棒的东西",但就是不告诉你怎么做的。阿里巴巴通义实验室最近开源的通义深度研究(Tongyi DeepResearch)终于打破了这个局面,而且性能还相当能打。
2025-10-29 23:00:24
459
原创 9 种高级 RAG 技术及其实现方法
本文将探讨 9 种关键的高级检索增强生成 (RAG) 技术,并介绍如何借助相关工具实现它们。在实际的 AI 应用中,RAG 技术能有效优化 RAG 管道的准确性和灵活性。从更智能的文本分块(chunking)到混合搜索(hybrid search)和上下文蒸馏(context distillation),这些方法对于提供更快、更准确的响应至关重要。我们为什么需要这些技术?因为基本的 RAG 系统常常面临结果嘈杂、上下文不相关或排序不佳等问题。
2025-10-24 18:27:46
938
原创 揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力
证明了小型语言模型(40亿参数)通过精心设计的训练流程,也能在复杂的深度研究任务上与大型商业模型一较高下。高质量数据:DuetQA通过多智能体自我对弈,生成了真正需要联网搜索才能回答的问题,避免了模型"走捷径"稳定训练:RAPO算法解决了多轮工具调用场景下的训练不稳定问题,让长链推理成为可能智能奖励:步骤级奖励机制不仅关注最终答案,还细致评估每一步操作的价值,引导模型形成高效的搜索策略局限性也值得注意:作者坦诚地指出,当前系统在测试时的可扩展性有限——虽然训练时能学会长链推理,但推理时的表现提升有限。
2025-10-22 22:16:33
936
原创 如何提升RAG效果:RRF的详解与实现
倒数排序融合(RRF)是一种将多个排序结果列表合并为单一排序列表的算法。在多个检索系统中都排名靠前的文档,往往更具相关性。无需分数归一化- 不同检索系统的评分标准差异巨大(如BM25分数和余弦相似度),RRF直接使用排名位置,避免了复杂的分数标准化问题简单而强大- 算法实现简单,但在实践中表现出色零样本有效- 不需要针对特定领域进行训练或调优倒数排序融合(RRF)为RAG系统提供了一个简单而强大的结果融合方案。它通过巧妙利用排名信息,避免了分数归一化的复杂性,同时能够有效提升检索质量。
2025-10-21 15:36:51
978
原创 DeepSeek-OCR技术报告截图: 视觉压缩长文本的探索性研究
通过光学(视觉)方式压缩文本上下文。简单来说,就是将大量文字转换成图像,然后用少量的"视觉token"来表示,从而大幅减少模型需要处理的token数量。DeepSeek-OCR作为概念验证,初步验证了上下文光学压缩理论意义:证明小型语言模型能有效学习从压缩视觉表示解码,为大模型提供了新的长文本处理思路技术创新:DeepEncoder架构巧妙解决了高分辨率输入下的激活内存和token压缩问题,为VLM设计提供了新范式实用价值。
2025-10-20 17:52:50
2801
1
原创 Claude 新功能深度解析:Agent Skills 让 AI 智能体变得更专业
最近 Anthropic 推出了一个挺有意思的新功能——Agent Skills(智能体技能)。简单说,就是通过文件和文件夹的方式,让 Claude 变得更专业、更懂行。虽然 Claude 本身已经很强大了,但在实际工作中,它还是缺少一些专业领域的知识和公司内部的背景信息。这个新功能就是为了解决这个问题。Agent Skills 的概念很简单,格式也很简单。但正是这种简单,让它变得容易上手、容易扩展、容易分享。任何人都可以用文件夹的形式把自己的专业知识打包起来,让 Claude 学会新技能。
2025-10-18 22:53:30
1194
原创 长上下文为何失效?
百万token上下文窗口的到来感觉具有变革性。能够将智能体可能需要的一切扔进提示词的能力,激发了对超智能助手的愿景,这些助手可以访问任何文档,连接到每个工具,并保持完美的记忆。但正如看到的,更大的上下文会创造新的失效模式。上下文中毒嵌入随时间复合的错误。上下文分散导致智能体严重依赖其上下文并重复过去的动作,而不是向前推进。上下文混淆导致使用不相关的工具或文档。上下文冲突创建了破坏推理的内部矛盾。
2025-10-15 15:19:25
1109
原创 ACE会成为下一代上下文工程技术吗?
摘要: 《Agentic Context Engineering (ACE)》提出了一种新型上下文工程框架,将上下文视为动态演化的结构化知识库,而非静态提示。相比当前最优方法GEPA(易受"简洁性偏差"影响),ACE通过生成器、反思器、策展人三组件协同工作:生成器执行任务,反思器提取关键洞察,策展人将其转化为结构化增量更新。实验显示,ACE在智能体任务和金融推理中分别提升10.6%和8.6%性能,适应延迟降低86.9%。该框架通过保留详细领域知识,实现了更高效的上下文持续优化,可能成为下
2025-10-13 16:59:37
392
原创 最新研究!告别“大材小用”!智能体任务的黄金法则是:用小模型(SLM)
小型语言模型(SLMs,参数量在1-12B之间)是否能够在智能体系统(Agentic Systems)中替代大型语言模型(LLMs)。检索增强生成(RAG)API调用和工具使用代码生成和执行结构化数据提取论文给出了一个严格的工程定义:设工具签名为JSON-SchemaSSS,参数为aaa,定义可执行率ExecRatea∼pθ⋅s.t.a⊨SExecRatea∼pθ⋅s.t.a⊨S其中a⊨Sa⊨S表示参数aaa。
2025-10-13 10:53:20
543
原创 彻底搞懂了!基于LangGraph与DeepSeek构建深度研究智能体
简单来说,深度研究智能体(Deep Research Agents)是能够对预设主题进行深入研究的系统。这可能涉及创建研究报告的提纲,该提纲最终将成为系统的输出。将上述提纲拆分为可管理的步骤。对报告的各个部分进行深入研究,这意味着需要推理出提供全面分析所需的数据,并利用网络搜索工具来支持分析。反思研究过程中不同步骤生成的数据,并改进结果。总结检索到的数据,并撰写最终的研究报告。首先,我们需要定义整个系统的状态,该状态将在智能体(Agent)在环境中运行时不断演进,并被系统的不同部分选择性地使用。
2025-10-11 14:36:23
830
原创 超越提示词:Anthropic 揭示下一代AI智能体的关键——上下文工程
上下文(Context)是 AI 智能体(AI agents)的关键资源,但其容量有限。本文旨在探讨如何有效策划和管理为 AI 智能体提供动力所需的“上下文”。。如今,构建大型语言模型(LLM)应用,不再仅仅是为提示词寻找合适的措辞,更重要的是要回答“何种上下文配置最有可能让模型产生我们期望的行为?”这一更宏观的问题。指的是从大型语言模型(LLM)中采样时所包含的指令序列(tokens)。而问题,则是优化这些指令序列的效用,同时克服大型语言模型固有的局限性,以持续实现预期的结果。
2025-10-10 17:13:23
1849
原创 LLM 与强化学习的新范式:Agentic RL 研究综述
Agentic RL 是一种将 LLM 视为可学习的策略,通过强化学习提升其作为智能体与环境交互并实现长期目标的能力的框架。除了提示工程 (Prompt Engineering) 和有监督微调 (Supervised Fine-Tuning, SFT) 外,强化学习在提升智能体性能方面扮演着关键角色。强化学习正在用于改进智能体的六项核心能力:推理、工具使用、记忆、规划、自我改进和感知。Agentic RL 在 2025 年以来发展迅速,本文介绍的许多研究也都是在 2025 年发表的。
2025-10-09 22:53:23
631
原创 AI Agent的四象限法则:解码智能体应用的底层逻辑
随着AI技术的不断发展,我们正在见证从第一代Agent到第二代Agent的演进。基于workflow和context确定性的分类框架,不仅帮助我们更好地理解当前AI Agent的能力边界,也为未来通用人工智能的发展提供了清晰的路线图。在这个充满不确定性的智能化时代,准确定位Agent的应用场景,合理配置工具能力,将是决定AI Agent成功与否的关键因素。
2025-09-24 19:51:15
691
原创 看完这张AI模型时间线,我悟出了一个道理
看完这张时间线,我最大的感受是:我们正在经历一个前所未有的技术爆发期。这既是机遇,也是挑战。机遇在于,我们有了越来越多强大的工具可以使用。挑战在于,我们需要在这种信息过载中保持清醒,找到真正有价值的东西。与其每天焦虑"又有新模型了",不如问问自己:“这些工具真的让我变得更好了吗?这才是真正重要的问题。记住,最好的工具,永远是那个你用得最顺手的工具。
2025-09-22 18:07:01
571
原创 通义甩出王炸!首个全开源DeepResearch诞生,性能硬刚OpenAI!
通义DeepDeepResearch:开启开源 AI 研究智能体的新纪元。
2025-09-18 00:11:52
1460
原创 REASONS:科学文献中引用归因的新基准和方法
这篇论文主要研究的是源归因(Source Attribution)问题,也就是让大语言模型(LLM)能够准确地为生成的内容提供引用来源。间接查询:给定一个句子,找出这个句子引用的论文标题直接查询:给定论文标题,找出论文的作者信息元数据的关键作用:添加元数据能显著提升所有模型的性能,将幻觉率大幅降低模型间的性能差异巨大:顶级模型(GPT-4o)与其他模型之间存在显著差距RAG的潜力和限制:高级RAG在间接查询中表现出色,但在直接查询中仍落后于顶级模型不确定性校准的重要性。
2025-09-17 22:33:44
1047
原创 豆包·图像创作模型 Seedream 4.0 实测:多图融合黑科技,4K生图秒级完成!
整体来说,Seedream 4.0 确实是个不错的升级。特别是多图融合、主体一致性这些功能,解决了很多实际痛点。对个人用户来说,各种创意玩法挺有意思的,3D手办、表情包、换装这些都能玩得很开心。对企业用户来说,电商营销、设计预览这些场景确实很实用,能提高不少效率。特别值得一提的是,Seedream 4.0 已经在火山方舟全量上线,提供企业级API服务。通过火山方舟API调用,不仅能体验到最满血的4K高清输出能力,还享受低延迟、高稳定性的专业服务,这对企业生产环境来说非常重要。
2025-09-15 23:14:22
4290
原创 SFR-DeepResearch: 单智能体RL完胜复杂多智能体架构
这项研究成功证明了简单的强化学习配方配合智能的上下文和长度管理,能够让单智能体获得与多智能体脚手架相媲美的研究能力。架构创新:提出了适应不同推理模型的单智能体工作流程训练方法:开发了稳定的多轮RL训练配方,包括长度归一化和轨迹过滤性能突破:在多个基准测试中达到了业界领先水平实用价值:证明了单智能体系统在复杂任务中的有效性。
2025-09-14 21:22:03
1089
原创 如何打造高效AI智能体工具
摘要: Anthropic团队分享了提升AI智能体性能的关键方法:通过高质量工具设计和评估优化智能体的任务解决能力。文章提出工具开发的核心原则:快速原型测试、全面评估(基于真实场景任务)、与智能体协作改进工具。重点包括工具命名空间管理、返回有意义上下文、优化响应效率及规范设计。评估阶段需关注智能体行为分析,识别工具使用的不足。实践表明,与智能体协同迭代能显著提升工具效果,且符合人类直觉的工具设计最有效。
2025-09-13 21:08:26
916
原创 分享一篇非常有意思的文章:是否有必要训练大模型?
模型不再是智能的衡量标准,而是生产力的要素。我们应该用TFP来衡量,同时考虑产出率、推理定价等因素。我们正在看软件吃掉世界,模型开始蚕食劳动力市场。能活下来的公司将是那些能以最高ROI把Token高效转化成劳动力的公司。
2025-09-12 17:08:04
839
原创 DeepResearch 完美替代出现:ROMA开源元智能体框架超越竞品!
ROMA Search 仅仅是一个开始。开发团队已经将其开源化并使其具有可扩展性,以便用户能够突破其潜力的边界。对于开发者:开始在 ROMA 中实验构建智能体。替换不同的智能体,测试多模态能力,或者自定义提示词,以创建能够生成从漫画、播客等创意内容到研究报告等分析工作的智能体。对于研究人员:通过在 ROMA 的基础上构建来推动该领域的发展。透明的阶段追踪让用户能够深入了解智能体互动和上下文流——这对于开发下一代元智能体架构来说是完美的。
2025-09-11 09:55:41
1246
原创 【无标题】
Qwen 3-Next 系列的发布标志着稀疏模型技术的重要进展。通过将激活比例降至史无前例的低水平,同时保持强大的性能表现,这一创新为 AI 模型的部署和应用开辟了新的可能性。对于开发者和研究人员而言,Qwen 3-Next 提供了在有限硬件资源下运行大规模模型的现实方案。随着 llama.cpp 等推理框架对新架构的支持逐步完善,这类稀疏模型有望在移动设备和边缘计算场景中发挥更大作用。阿里巴巴表示将很快发布更多技术细节和基准测试结果,届时我们将对这一突破性模型的实际表现有更全面的了解。
2025-09-10 15:18:01
1018
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅