JasonLiu1919-优快云博客

原创推理模型专题 | Search-o1技术解读-智能RAG助力O1推理模型突破知识盲区

Search-o1旨在解决大型推理模型(LRMs)在推理过程中常遇到的知识不足问题。该框架通过集成agentic检索增强生成(RAG)机制和文档推理模块，使模型能够在需要时动态检索外部知识，并将其无缝整合到推理过程中。实验表明，Search-o1在科学、数学和编码等复杂推理任务以及开放域问答基准上都取得了显著的性能提升。Q1:这篇文章想要解决什么问题？A1:论文主要解决大型推理模型(LRMs)在进行复杂推理时面临的知识不足问题。

2025-01-19 21:22:44 909

原创推理模型专题 | 开源类O1：Marco-o1技术全面解读

阿里国际数字化商业团队(非Qwen团队)提出Marco-o1，该模型不仅关注数学、物理和编程等具有标准答案的学科领域(这些领域非常适合强化学习)，还更加注重开放性解决方案。Marco-o1旨在解答一个问题:"o1模型能否有效地推广到那些缺乏明确标准且难以量化奖励的更广泛领域？Marco-o1采用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新的推理动作策略，专门针对复杂的现实问题求解任务进行了优化。基于CoT数据的微调。

2025-01-19 14:22:35 1173

原创从哈佛取消30门文科课说起：AI时代，我们还需要文科专业吗？

这意味着不必通过传统的文科专业教育，也能培养深厚的人文素养。随着AI技术的发展，纯粹的人文学科专业可能难以适应未来就业市场的需求。总的来说，在AI时代，我们需要的是将人文素养融入各个专业而非孤立的文科教育。从教育资源配置的角度看，单独设置文科专业的投入产出比正在降低。将有限的教育资源更多投向STEM学科，同时在通识教育中加强人文素养培养，可能是更优的选择。在人工智能时代的发展背景下，文科专业的存在价值确实需要重新思考。值得注意的是，很多在人文领域做出重要贡献的人，并非科班出身。3、AI时代对人才的新要求。

2025-01-04 16:44:29 308

原创 Agent系列：AppAgent v2-屏幕智能Agent(详解版)

随着多模态大语言模型（MLLM）的发展，视觉智能体（Agent）正逐渐在软件界面中，尤其是图形用户界面（GUI）中，发挥重要作用。本文设计了一个专为移动设备打造的智能体框架，该框架基于大语言模型，能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间，增强了其在不同应用程序中的适应性，支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段：探索（Exploration）和部署（Deployment）。

2025-01-01 16:59:33 1379

原创 Agent系列：多模态智能体AppAgent v2助力AI手机(简化版)

AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制，显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现，并展示了其在未来智能体研究中的巨大潜力。

2025-01-01 16:56:43 898

原创 AI手机新纪元：AutoGLM开启后APP时代下的挑战与机遇

山黛远，月波长，暮云秋影蘸潇湘。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖热干面的小女孩。近日，国内知名AI公司智谱在中国计算机大会（CNCC）上发布的AutoGLM引发了业界广泛关注。这款突破性的AI智能体产品能通过语音指令理解用户意图，模拟人类操作手机，自动完成从网页浏览、商品购物到社交媒体互动等多种复杂任务。同期，Anthropic公司推出的Claude 3.5系列模型（Sonnet和Haiku）也引入了computer use功能，展现了AI操控设备的新能力。

2024-12-08 19:50:23 876

原创万字长文细说端侧大模型进展(下篇)：AutoGLM类Agent隐私安全有感

本综述全面阐述了设备上语言模型（LLMs）的最新进展，重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。这些进步推动了复杂语言模型在资源受限设备上的部署，为各行业提供了更好的数据保护、低延迟和普及先进AI能力的机会。从云端到边缘的LLM部署转变标志着人机交互范式的革新，开辟了个性化、情境感知和即时AI体验的新途径，促进了各领域的智能化发展。然而，设备上LLM仍面临平衡性能与资源限制、确保模型鲁棒性及开发持续学习机制等挑战。此外，能源效率、可持续性和负责任的部署问题也日益突出。

2024-12-08 19:46:20 1396

原创万字长文梳理端侧大模型进展(上篇)：由AutoGLM类Agent隐私安全有感

大型语言模型（LLMs）的出现彻底改变了自然语言处理（NLP）领域。由于其在边缘设备上的低延迟、数据本地化和个性化用户体验的优势，越来越多的研究关注在资源受限环境中部署LLMs的挑战与解决方案。本文综述了设备端语言模型的发展，包括高效架构设计、模型压缩技术及硬件加速策略，并通过案例研究展示其实际应用及潜在优势。

2024-12-07 15:27:06 1173

原创全面深入解读Movie Gen技术原理5部曲：4-精准视频编辑

随着视频内容的普及，对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向，旨在让用户通过自然语言简单快速地编辑视频。然而，受限于有监督视频编辑数据的稀缺，高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。Movie Gen Edit 的训练基于两个假设:显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频，而非仅处理有限特征。收集大规模视频编辑监督数据困难，导致训练-测试场景差异。

2024-12-07 15:17:37 1013

原创腾讯Hunyuan3D-1.0：快速生成高质量3D资产的秘诀大公开！

多视图生成模型：通过并行生成多视图图像来增强3D信息的理解，使用自适应分类器自由指导（CFG）来平衡不同视图的可控性和多样性。稀疏视图重建模型：利用不完全一致的多视图图像恢复底层3D形状，结合未校准的条件图像作为辅助输入以补偿生成图像中未见部分。以下简单介绍腾讯的Hunyuan3D-1.0框架，该框架统一了文本到3D和图像到3D生成的流程，能够在短时间内生成高质量的3D资产。统一框架：Hunyuan3D-1.0是一个统一的框架，支持高质量的文本和图像条件下的3D生成。

2024-11-15 20:55:41 519

原创全面深入解读Movie Gen技术原理(5部曲)：个性化视频生成(3)

本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构，通过将个性化信息整合到视频生成过程中，实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破，还具有广泛的实际应用前景，为个性化高质量视频生成开辟了新的可能性。后续将进一步解读Movie Gen的视频精准编辑和声音生成。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号Movie Gen在个性化视频生成领域取得了显著进展。

2024-11-09 18:56:03 1072

原创万字长文深度解读Movie Gen技术原理(5部曲)：图像&视频联合生成模型 (2)

今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率优化等。此外，还详细介绍了预训练数据的准备过程，包括视觉筛选、运动筛选、内容筛选和字幕生成等步骤。整体上，全面深入地解析了Movie Gen的核心技术原理。后文将从个性化视频生成、精准视频编辑、音频生成这3个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号。小窗幽记机器学习。

2024-11-09 18:27:13 1405

原创全面深入解读Movie Gen技术原理(5部曲)：概述 (1)

研究发现，通过扩大训练数据、计算资源和模型参数，使用Flow Matching训练的Transformer模型可以生成高质量的视频或音频。Meta据此打造Movie Gen的2种基础模型：Movie GenVideo和Movie GenAudio。Movie Gen Video和Movie Gen Audio模型参数量分别是300亿和130亿。

2024-10-07 16:55:32 2307

原创突发！Meta重磅发布Movie Gen入局视频生成赛道！

作为最先进和沉浸式的讲故事模型套件，Movie Gen具备四种核心功能：视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节，但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节，感兴趣的小伙伴可以留意下。

2024-10-05 15:18:27 835

原创 LLM端侧部署系列 | PowerInfer-2助力AI手机端侧部署47B大模型 (论文解读)

为啥大模型要做端侧部署？除了常说的端侧数据安全隐私，其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型（LLM）而设计的框架，特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言，在PowerInfer-2中设计多态神经元引擎，能够根据LLM推理的不同阶段自适应采用不同的计算策略。此外，引入了分段神经元缓存(neuron caching) 和细粒度神经元集群级流水线。

2024-10-05 14:13:42 1965

原创 LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署

近日，上海交大为大模型能够在智能手机上部署提出PowerInfer-2，该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型，在inference的时候每秒可生成11.68个token，这比其他最先进的框架快22倍。即使是使用7B模型，PowerInfer-2只需将50%的FFN权重放置在手机上，在7B这个模型参数上，仍然是目前最快的推理框架！更多大模型相关，如模型解读、模型微调、模型部署、推理加速。

2024-10-04 12:13:56 1411

原创端侧Agent系列 | 端侧AI Agent任务拆解大师如何助力AI手机？(详解版)

AI智能体由于其能够自主决策并执行任务并解决诸多问题，从而在各领域变得越发重要。为了有效运作AI Agent，NexaAI的研发人员提出了一种设备端规划-执行框架Octo-planner和Octopus执行智能体。Octo-planner将任务分解为子步骤，然后由Octopus模型(指之前提出的Octopus v1、v2、v3、v4模型)执行。为优化资源受限设备上的运行性能，官方使用模型微调而非上下文学习，从而降低计算成本和能耗，提高响应速度。

2024-10-04 11:13:56 1481

原创论文推荐 |【Agent】自动化Agent设计系统

• 引入了自动化代理系统设计（ADAS），这是一个新的研究领域，用于自动创建强大的代理系统设计。- 在领域迁移后，GSM-Hard任务的准确率提高了13.2%• 以代码形式表示代理，使元代理能够编程出越来越优秀的代理。- 在领域迁移后，GSM8K任务的准确率提高了25.9%自动化代理设计在性能和通用性方面显著超越了手动方法。• 在数学任务（MGSM）上将准确率提高了14.4%- 基于不断演进的先前发现档案，迭代生成新的代理。• 在多个领域超越了最先进的手动设计代理。• 理论上能够发现任何可能的代理系统。

2024-10-03 22:02:50 601

原创端侧大模型系列 | 端侧AI Agent任务拆解大师如何助力AI手机？(简短版)

随着AI技术的发展，AI Agent应用越来越广泛，但大多数依赖大型语言模型，需要强大计算资源和网络连接，限制了其在边缘设备上的应用。为此，研究人员提出了Octo-planner，一个专为边缘设备优化的规划Agent框架：Octo-planner。Octo-planner是一个高效的Planner-Action框架，将规划和执行分为两个组件：针对边缘设备优化的规划Agent和使用Octopus模型的执行Agent。它将任务分解为子步骤，由Octopus执行。

2024-10-03 21:43:33 1434

原创面向大学生 | 算法可视化讲解：翻转链表

1.使用三个指针：prev,curr,next2.设置：prev = NULL，curr = HEAD3.保存下一个节点：next =current.next4. 反转当前节点的链接，使其指向上一个节点： curr.next = prev5. 将上一个移至当前，将当前移至下一个：prev = curr, curr = next6.重复步骤 3-5，直到current为NULL7. 循环结束后，prev 将指向反转列表的新头部。翻转链表-可视化。

2024-10-03 21:16:43 252

原创风格迁移还能玩出花？谷歌重磅推出新风格迁移模型：零训练，秒变大师级风格！

由此产生的漂移不仅克服了上述困难，还确保了对参考风格的高度保真，并遵循给定的文本提示。通过理论论证和实证证据，RB-Modulation框架展示了在无需训练的情况下精确提取和控制内容和风格。此外，RB-Modulation的方法允许内容和风格的无缝组合，这标志着摆脱了对外部适配器或 ControlNets 的依赖。总之，RB-Modulation提供了一种强大且灵活的工具，为图像处理和生成艺术开辟了新的道路，让用户能够轻松实现各种独特的风格创造与内容融合。(b) 参考风格图像中不必要的内容泄漏，以及。

2024-10-01 23:28:44 343

原创免费书分享 | 麻省理工爆火的免费书《线性代数的艺术》图解笔记开源！中英文都有！

众所周知，线性代数是AI领域的数学基础！而 MIT教授Gilbert Strang老爷子的线性代数课程是全网最火性代数课程，没有之一！本期分享的开源图书：《线性代数的艺术》通过可视化图示的方式，直观且深入的促进从矩阵分解的角度对向量、矩阵计算和算法的理解！它作为唯二的笔记之一和唯一的Interesting Link被放在原著官网的首页推荐，也获得了教授的亲笔推荐序。#线性代数 #图解 #AI数学基础 #AI入门 #开源电子书 #AI基础。中文版可以在公众号上回复"线性代数"获取。

2024-10-01 23:20:33 330 1

原创全面解说OpenAI o1三部曲：下篇-乞丐版o1-mini

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖海参的小女孩。OpenAI 发布的o1 是一个系列模型。除了o1-preview，官方还一并发布了一个 mini 版：OpenAI o1-mini。o1-mini是面向开发者，兼顾成本和效益。o1-mini 在 STEM 领域表现出色，尤其是在方面，其性能几乎可以与 OpenAI o1 在 AIME 和 Codeforces 等评估基准上相媲美。o1-mini将成为在无需广泛世界知识的应用中需要推理任务时的快速且具成本效益的模型。

2024-09-30 20:12:26 932

原创全面解读OpenAI o1三部曲：中篇-原理

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖海参的小女孩。OpenAI 官方在技术博客《Learning to Reason with LLMs》中对 o1 系列模型做了进一步的技术介绍。虽然不是很详细，但是聊胜于无。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号在 OpenAI 的测试中，该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现接近博士生水准。OpenAI 还发现它在数学和编码方面表现出色。

2024-09-30 20:10:53 1572

原创开源实战分享 | 新书：《大型语言模型实战手册》随书代码分享

大型语言模型实战手册》(英文版)目前电子版在亚马逊有售，纸质版预计在2024年10月15日开售。该书通过超过275张定制插图，深入探索大型语言模型的世界，为Python开发者提供使用大型语言模型所需的实用工具和概念。如果对于插图没有特别执念的同学，可以直接在微信公众号《小窗幽记机器学习》上回复"大模型实战"获取随书代码(有完整的notebook)！纸上得来终觉浅，绝知此事要躬行！

2024-09-30 20:02:41 512

原创全面解读OpenAI o1三部曲：上篇-概述

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖海参的小女孩。前几天(9月12日)，OpenAI发布了o1系列模型。该系列的模型旨在让模型。这类似诺贝尔经济学奖得主提到的"慢思考"。这种主打"慢思考"的模型与之前的模型相比，能够在科学、编程和数学领域中完成复杂任务和解决更难的问题。简而言之，"慢思考"模型在逻辑推理等理工科任务上，刷到一个新的高度！真的遥遥领先！堪称地表最强理科王者！记录机器学习过程中的点点滴滴和坑坑洼洼公众号。

2024-09-29 21:10:59 1128

原创端侧多模态 | 不到10亿参数的端侧Agent竟媲美GPT-4V？AI手机不远了！

多模态人工智能Agent（智能体）能够处理和学习各种数据类型，包括自然语言、图像和音频。虽然将视觉数据融入大型语言模型已有进展，但如何将图像数据转化为Agent可操作结果仍具挑战。这篇文章介绍一种新型多模态模型，结合了功能性标记(function token)的概念，专为Agent应用设计。为实现边缘设备部署，模型参数被优化至10亿以下。与GPT-4类似，该模型支持英语和中文处理。实践证明，该模型可在多种边缘设备(包括像树莓派这样资源受限设备)上高效运行。演示视频如下：AI科技爱科学。

2024-09-29 21:08:35 1462

原创 LLM Agent系列 | 端侧Agent路由器，合纵连横AI江湖，破局端侧大模型之困！

语言模型在各种应用中都表现出色，但最先进的模型通常是专有或私有的。例如，OpenAI 的GPT-4和Anthropic 的各种模型，这些模型使用价格昂贵且能耗高。相比之下，开源社区已经公布极具竞争力的模型，如Llama3。此外，特定领域的小语言模型（如法律、医疗或金融任务的模型）在某些方面优于其专有的同行对手。本文介绍了一种新方法，使用函数token整合多个开源模型(这些开源模型每个都针对特定任务进行了优化)，使得可以根据用户query自动分配最合适的模型。

2024-09-27 21:02:34 1484

原创 RAG实战 | 基于LlamaIndex的文档问答系统

本文主要介绍如何使用LlamaIndex实现RAG系统，并以文档问答为实例，介绍如何使用LlamaIndex实现RAG。借助LlamaIndex实现的RAG系统，可以进一步实现本地化的知识库系统的构建。#RAG #LlamaIndex #问答系统 #知识库问答 #RAG实战 #AI入门 #搜索系统。

2024-09-27 20:59:28 834

原创如何精准剑指offer？大学生必须掌握的市场洞察大法!

然而，大学教育的意义远不止于职业技能的培养。对于已经进入职场的人来说，定期通过外部的招聘要求评估自己，甚至通过小号参与面试来获得实战经验，也是了解自身能力和市场需求的有效方式。通过合理利用JD信息，提升自身技能，并在此基础上，不断反思和拓展个人理想，他们才能在职场中找到属于自己的位置，实现个人的全面发展。因此，大学生需要主动了解市场需求，培养适应社会的能力，同时保持自己的原则和初心，避免成为精致的利己主义者。大学生在获取职业技能的同时，应该坚持自己的原则和初心，追求更高层次的自我实现和社会贡献。

2024-09-22 20:20:32 580

原创模型部署系列 | 如何本地部署LLM服务？以ollama为例

本文主要介绍如何安装ollama，并演示2种加载模型的方法：(1)拉取ollama官方已经有的模型，进行LLM服务部署。(2)加载本地模型部署大模型服务。最后，对部署的LLM服务的接口进行测试。#大模型部署 #LLM部署 #如何部署ollama #模型框架 #AI入门 #推理加速。

2024-09-22 20:16:57 1968

原创吹爆吊打 GPT-4 的大模型新王者Reflection 70B，是否言过其实？

一觉睡西天，谁知梦里乾坤大。只身眠净土，只道其中日月长。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖铁观音的小男孩。今天这篇小作文主要介绍这几天网上狂吹的开源新晋王者Reflection 70B，该模型号称在多个基准测试中超越GPT-4o和Llama 3.1。模型下载：https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B。

2024-09-21 14:53:10 1070

原创 AI入门系列 | 如何优雅地下载最前沿的模型？

本文简要介绍如何便捷地从huggingface上下载模型。该方式从小编自身的实践来看，是目前最为便捷的，特别是支持断点续传的功能，特别符合我们的网络环境。

2024-09-21 14:28:51 477

原创从 Prompt 工程看职场PUA！明明是模型缺陷，为啥要 Prompt 雕花？

从 Prompt 工程到职场 PUA，我们看到一个共同的问题：系统的不足让个体承担了不必要的负担。然而，随着技术的进步和职场文化的变革，这种现象正在得到改善。未来的 AI 模型应更具主动性和透明性，让用户在明确表达需求的情况下得到准确的结果。而在职场中，我们也应该追求一种公开、透明的沟通机制，鼓励每个人清晰表达需求。这种双向的改善，无疑将为人类和人工智能的互动带来更光明的前景。

2024-09-16 18:45:50 953 2

原创端侧大模型系列 | 斯坦福手机端侧Agent大模型，为Android API而生！

语言模型在自动工作流中的有效性得到了验证，尤其是在函数调用方面。尽管大规模语言模型在云环境中表现优异，但隐私和成本问题仍令人担忧。当前端侧模型在延迟和准确性上面临挑战，研究人员提出了名为Octopus的模型，其2B参数版本在准确性和延迟上超越了GPT-4，并将上下文长度减少了95%。与Llama-7B相比，Octopus的延迟提高了35倍，适合在各种边缘设备上部署。论文地址：模型下载地址：大型语言模型在函数调用方面的能力显著促进了AI Agent的发展，如MultiOn、Adept AI等已进入市场。

2024-09-16 18:42:43 2484

原创 “创始人模式“？Airbnb创始人分享

经过深入思考，答案逐渐明晰：这些建议的实质是教你如何经营一家并非由你创办的公司，换句话说，被建议的对象设定其实是职业管理人，而非创始人。创始人们感到自己受到了来自两个方向的操纵：一方面是那些告诉他们必须像管理人一样经营公司的人，另一方面是当他们这么做时，来自被他们管理的员工的压力。这种方法听起来很有道理，但从众多创始人的经验来看，这种建议的潜台词可能变成："雇佣专业的骗子，让他们把公司掏空。然而，从那些尝试过管理人模式的创始人的失望中，以及他们摆脱这种模式后取得的成功中，我们可以推断出另一种模式的存在。

2024-09-08 15:49:03 606

经典模式识别教材matlab代码

空空如也