自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(876)
  • 收藏
  • 关注

原创 大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!

2024-08-01 15:13:51 20516 1

原创 大模型论文 | 华为企业级应用:多Agent生成Workflow,准确率大幅提升

提出了 WorkTeam——一个多智能体的 NL2Workflow 框架,由监督员、协调员和填充员组成,每个角色各司其职,协同提升转换效果。目前尚无公开的 NL2Workflow 基准数据集,为此我们推出了 HW-NL2Workflow 数据集,包含 3,695 个真实业务场景样本,用于训练和评估。实验结果表明,我们的方法显著提升了工作流构建的成功率,为企业的 NL2Workflow 服务提供了创新且有效的解决方案。

2025-03-31 22:30:21 588

原创 大语言模型《自然语言处理:大模型理论实践》,带你从理论到实战(附PDF下载)

自然语言处理一直是人工智能最热门的应用研究领域,对科学技术、文化教育、经济社会的发展各个方面都具有极其重大的意义。近年以来,以ChatGPT 为代表的生成式预训练对话人工智能技术(即大语言模型,简称大模型)取得了令人瞩目的进展,给基于统计方法的自然语言处理技术带来了前所未有的进步。这本书以自然语言处理中语言模型为主线,涵盖了从基础理论到高级应用的全方位内容,逐步引导读者从基础的自然语言处理技术走向大模型的深度学习与实际应用。

2025-03-18 11:34:03 688

原创 用LangChain还是LangGraph?官方终于站出来表态了

仅使用 LangChain仅使用 LangGraph同时使用 LangChain 和 LangGraph此外,你也可以将 LangGraph 的图结构编排能力与其他 Agent 框架(如微软的 AutoGen)结合,例如:将 AutoGen 的 Agent 作为 LangGraph 的节点LangChain 和 LangGraph 各有优势,选择合适的工具可能会让人感到困惑。那么,应该在什么情况下使用?线性任务(Linear Tasks):文档检索、文本生成、摘要等预定义的工作流。

2025-03-16 09:15:00 977

原创 AI Agents入门教程(二)AI Agents如何与环境交互?AI Agents如何运作?什么时候应该使用AI Agents?

上述交互循环通常被称为“感知-规划-行动”循环(Sense-Plan-Act Cycle)或“感知-行动”循环(Perception-Action Cycle)。我们以自动驾驶汽车为例,分阶段理解这一过程:感知阶段将以下视为智能体的 "感知 "阶段: Sensors → Processing → State Update。智能体通过传感器接收输入,处理和解释信息,根据新信息更新当前状态。决策阶段。

2025-03-15 10:45:00 1611

原创 AI Agents入门教程(一)从 LLM 到AI Agents、什么是AI Agents ?AI Agents 的核心组成部分

AI 智能体(AI Agents)是一种能够通过传感器感知环境、处理信息,并通过执行器作用于环境以实现特定目标的系统。它类似于一种数字实体,具备观察、思考和执行的能力——这种运作方式与人类和周围环境的互动模式相似,但区别在于AI 智能体是通过编程以目标导向的方式运作的。人工智能体的核心理念建立在"理性行为"的基础上:Agent应当采取能使成功概率最大化的行动,以实现其预设目标。正是这种理性设计,使AI Agent有别于简单的响应式程序。自主性:无需人工干预即可运行,独立做出决定。

2025-03-15 08:15:00 979

原创 大模型Agent | AI Agent 记忆技术浅析

Agent记忆(Agent Memory)是指AI Agent在执行任务过程中存储和管理信息的能力和机制。它类似于人类的记忆系统,使Agent能够记住过去的交互、经验和知识,并在后续任务中利用这些信息做出更好的决策。这种记忆机制对于实现持续学习和处理长期任务至关重要。

2025-03-14 10:28:50 773

原创 大模型应用开发 | RAG在实际落地场景中的优化(三)RAG落地案例分享

建议围绕各自领域构建属于自己的领域资产库包括,知识资产,工具资产以及知识图谱资产领域资产:领域资产包括了领域知识库,领域API,工具脚本,领域知识图谱。资产处理,整个资产数据链路涉及了领域资产加工,领域资产检索和领域资产评估。非结构化 -> 结构化:有条理地归类,正确地组织知识信息。提取更加丰富的语义信息。资产检索:希望是有层级,优先级的检索而并非单一的检索后置过滤很重要,最好能通过业务语义一些规则进行过滤。

2025-03-12 17:48:52 1067

原创 大模型应用开发 | RAG在实际落地场景中的优化(二)知识加工,知识检索优化思路

非结构化/半结构化/结构化数据的处理,准备决定着RAG应用的上限,因此首先需要在知识处理,索引阶段做大量的细粒度的ETL工作,主要优化的思路方向:非结构化 -> 结构化:有条理地组织知识信息。提取更加丰富的, 多元化的语义信息。

2025-03-12 17:35:57 1038

原创 大模型应用开发 | RAG在实际落地场景中的优化(一)RAG关键流程源码解读

本文主要围绕DB-GPT应用开发框架如何在实际落地场景做RAG优化。

2025-03-12 15:37:05 906

原创 大模型中的提示词(prompt)压缩,提示词压缩对大语言模型的重要性和实际应用场景

借助预训练的摘要模型自动缩小上下文规模,在减少文本长度的同时保持语义完整。

2025-03-09 07:15:00 702

原创 6个大模型的核心技术:Transformer、预训练技术、RLHF、模型压缩、多模态融合

Transformer 是大模型的底层模型。在深度学习的早期阶段,循环神经网络(RNN)是处理序列数据的常用方法。尽管RNN及其变体在某些任务上表现良好,但它们在处理长序列时容易遇到梯度消失和模型退化问题。为了解决这些问题,Transformer模型被提出。而后2020年 OpenAI首次提出**“规模定律”**,指出模型的性能随着参数量、数据量、训练时长的指数级增加而呈现出线性提升,并且该提升对架构和优化超参数的依赖性非常弱[7]。从此研究人员逐步转移研究重心至大语言模型基座,并开展了大量相关研究。

2025-03-08 14:34:04 903

原创 大模型 | 强化学习基础回顾、将强化学习应用于 LLMs、深度探索 R1

接下来,让我们继续探讨大模型,揭开强化学习(Reinforcement Learning, RL)的神秘面纱,探索它如何让语言模型更上一层楼。

2025-03-08 13:43:54 1064

原创 大模型LLM | QwQ-32B 测评和使用教程来了!

第一是 32B 小参数模型性能与超大参数的推理模型性能不相上下,做到了在保证性能的同时降低对计算资源的依赖,从而实现更加环保、可持续的AI技术发展;第二是响应速度也是相当不错的,不会遇到服务器繁忙的情况;第三是它支持功能,这一点对于模型开发来说有多重要就不必多说了。如今,距离 o1 模型发布不过五个月,推理模型领域已经迎来了百花齐放的新局面。犹记得前段时间大家还在全网寻找 "满血版"DeepSeek-R1 的使用渠道,转眼间就出现了小尺寸且性能强悍的 QwQ-32B 模型。

2025-03-08 11:37:18 1840

原创 大模型LLM | 从零开始构建一个通用AI Agent 智能体

若能访问一系列工具(例如:代码执行或网络搜索),AI Agent 智能体能够决定采用何种工具、如何运用它,并根据输出结果进行迭代优化。这种灵活性使得系统能以最低限度的配置应对多样化的应用场景。

2025-03-06 19:07:13 894

原创 大模型论文 | 迈向更全面的多模态大模型:多模态大模型如何突破模态与任务限制?(哈工大SCIR)

本文对Omni-MLLM进行了全面的综述,深入探讨了该领域的核心内容。具体而言,我们将Omni-MLLM分解为四个关键组成部分,并根据模态编码和对齐方法对其进行了分类。我们详细总结了Omni-MLLM的训练过程及其使用的相关资源,并归纳了当前面临的挑战和未来发展方向。本文是首个专注于Omni-MLLM的系统性综述,希望为相关领域的进一步研究提供参考和启发。

2025-03-06 18:01:33 624

原创 大模型LLM实战 | 到底如何训练自己的专属大模型(外挂知识库RAG、模型微调)

从“对话调教”入门,体验即时反馈的乐趣。需要专业能力时,优先尝试RAG外挂知识库。有明确垂直需求(如生成品牌视觉素材),再挑战模型微调。大模型不再是“黑科技”,只要掌握方法,普通人也能打造专属AI助手!

2025-03-05 15:00:26 683

原创 深入解析Agent | AI agent如何工作?AI Agent的核心组件

AI agent正在迅速改变我们与技术互动的方式,自动化复杂的工作流程,解决多步骤问题,并在各个行业中实现无缝的用户体验。根据凯捷咨询(Capgemini)对1000多名大型企业高管的调查显示,82%的组织计划在未来3年内采用AI agent。其实AI agent的核心是一个旨在自动观察、决策、行动并从其环境中学习的程序。在当今大多数AI agent中,通常其“大脑”是一个大型语言模型(LLM)。然而,构建强大的AI agent不仅仅是将LLM插入接口。

2025-03-05 11:32:22 1094

原创 2025 | DeepSeek下大模型就业方向(RAG、Agent等)还有前途吗?

大模型技术(如RAG、代理等)作为当前人工智能领域的前沿方向,依然具有广阔的发展前景和就业机会.以下从技术趋势、行业需求、挑战与机遇等方面展开分析。

2025-03-04 17:18:45 889

原创 大模型 | 一文带你了解RAG检索增强生成,从入门到实战!

RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。

2025-03-04 15:22:38 522

原创 2025 | AI大模型时代,需要什么样的产品经理?

AI是技术,想要改变行业或人们生活,需要把技术更好的应用,所以从技术层面要应用层面这个过程,就是产品经理发挥的价值。

2025-03-04 14:21:41 297

原创 AI产品经理 | AI产品设计的三大核心思维:用户价值导向、场景创新、数据驱动

AI产品经理需要建立多维思维模型:以用户价值为锚点,以场景创新为引擎,以数据驱动为燃料。唯有实现三者的有机融合,方能打造真正具备商业价值与技术生命力的智能产品。

2025-03-03 14:42:55 1007

原创 大模型论文 | 逻辑强化学习让7B模型推理能力暴增125%,仅需5K训练数据

你有没有好奇过,为什么有些AI模型能够像人类一样进行复杂的推理?为什么DeepSeek-R1这样的模型能在数学和逻辑问题上表现出色?这背后的秘密是什么?今天,我们来揭秘一项突破性研究——Logic-RL,它通过基于规则的强化学习,让一个仅有7B参数的模型在推理能力上实现质的飞跃。

2025-03-03 14:24:57 653

原创 如何提升推理系统的透明度与可信度?追溯性解释、情境性解释和对比性解释如何帮助我们理解复杂的推理规则?

提升推理系统的透明度与可信度是当前人工智能和知识推理领域中的一个重要议题。随着推理系统在诸如医疗、金融、司法等领域的广泛应用,确保这些系统的决策过程能够被理解并且信任成为了研究的关键目标之一。推理系统往往依赖于复杂的规则和算法,这些规则和算法在给出结论的过程中,可能对用户和开发者来说非常难以解读。为了提高这些系统的透明度与可信度,研究人员提出了不同的可解释性方法,其中包括追溯性解释、情境性解释和对比性解释。

2025-03-02 08:00:00 910

原创 Ollama和vLLM我们到底应该用哪个?

显然,赢家是 vLLM。对于单个请求,vLLM 有 11% 的性能提升(Ollama 是 26 个token/秒,而 vLLM 是 29 个token/秒)。

2025-03-01 08:15:00 736

原创 如何高效使用 DeepSeek-R1 这种推理模型?

Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在<think>标签中,以及最终的答案。

2025-02-28 17:28:09 1578

原创 大模型面经:目前不同阶段的scaling law之间的区别和联系是什么?

本篇主要总结目前三种scaling law:Pre-train、RL、Test Time相关的内容。现在关于scaling law是否“撞墙”的讨论越来越多,Chinchilla Scaling Law推断,“即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低”这也是为什么大家由Pre-train Scaling Law转到RL Scaling Law和Test Time Scaling Law的原因。

2025-02-28 11:42:07 1040

原创 关于通用模型与推理模型(二)AI产品经理的启示:如何选择模型类型?

在选择和实施AI大模型时,AI产品经理需要根据不同应用场景的复杂度、业务需求以及响应时效,选择合适的模型(通用模型或推理模型)。在某些场景中,例如为用户提供更复杂的决策支持或推理建议时,推理模型能够提供更好的支持(例如,基于用户的日常行为推理出更合适的建议),比如“帮我规划明天的行程”,而且用户也能接受相对较长的响应时间(“正在为您规划行程……而苹果则是自己开发了基础模型(通用模型),包括云端的服务模型+手机本地的2个小模型相配合,经过训练,能够出色地完成语言理解、指令遵循、推理、写作和工具使用等任务:。

2025-02-28 10:38:48 937

原创 关于通用模型与推理模型(一)通用模型VS推理模型:区别与应用

本文将探讨通用大模型VS推理大模型的技术特性、场景适配与企业数字化落地实践,帮助AI产品经理更好地理解和应用这些模型,从而提升业务效率和用户体验。

2025-02-28 10:29:20 945

原创 使用Zigent框架的DeepSeek智能体开发指南

Zigent是基于Salesforce AI Research团队开发的AgentLite框架改进的智能体开发框架。它专为构建和研究。

2025-02-26 11:48:32 603

转载 AI落地应用实战 | DeepSeek大模型应用探讨与RAG技术全景

通过这一系列步骤,RAG系统能够有效地从大量知识库中检索相关信息,并生成准确、相关的答案,从而提升问答系统的性能。

2025-02-26 11:20:19 792

原创 大模型 | 实操Deepseek接入个人知识库

为什么要尝试给DeepSeek添加本地知识库呢?或许在我们OA系统中会出现一个AI小助手,我们会问它差旅费报销流程怎么走、合同流程怎么走、负责某某业务的同事的联系方式等等。当然,这应该是最简单的应用场景。时代变了!以前需要找好多个部门的专业人士了解的信息,未来用AI工具就能快速获取,并且是提炼总结后的内容。要实现这些功能,必然需要提供相关的资料内容,这就得有一个知识库。

2025-02-26 10:27:01 936

原创 一文通俗易懂了解:智能体、LLM、RAG和提示词工程,轻松构建下一代应用

今天主要来聊一聊Ai大模型中的几个概念这两年AI应用开发火得不行,但很多小伙伴被一堆专业名词绕晕了。今天咱们就来掰开揉碎说说几个最关键的术语,保证看完你就能和工程师聊上两句了。想象有个24小时待命的虚拟员工,这就是智能体(Agent)。它和传统AI最大的区别就像人类和机器的区别:传统AI只能按固定剧本走,而智能体更像真人,能自己观察环境、思考对策、调用工具完成任务。现在很多企业都在搞的智能体平台,本质上就是给这些"虚拟员工"配办公室。

2025-02-25 19:46:50 987

原创 大模型论文 | LLMEmb: 基于LLM的序列推荐嵌入生成器

当前,序列推荐系统(Sequential Recommender Systems, SRS)广泛应用于电子商务和短视频平台等场景。然而,现有的SRS中存在着严重的长尾问题。长尾问题在推荐系统中指大量低流行度(长尾)物品难以被有效推荐的现象,导致用户惊喜度降低、卖家利润减少和系统整体受损。这种现象主要体现在两个方面:首先,用户难以发现新的、有价值的物品,推荐体验变得单一,无法满足个性化需求;其次,低流行度物品销售量低,卖家收益受损,甚至可能被迫下架,影响整个市场的多样性。

2025-02-25 19:12:38 687

原创 比GraphRAG和LightRAG还强的HippoRAG 2来了!

近年来,大语言模型(LLMs)在许多方面取得了显著进展。然而,大型语言模型的目的是让LLMs能够随时间获取和整合新知识,同时保留过去的信息。考虑到全面预训练大型语言模型的高计算成本,这里不再继续讨论这种方法。其他持续学习方法通常分为三类:持续微调、模型编辑和RAG。持续微调(Continual fine-tuning)涉及定期用新数据对大型语言模型进行训练。可以通过像持续预训练、指令微调和对齐微调等方法实现。

2025-02-25 18:59:26 945

原创 深度学习中的注意力机制革命:MHA、MQA、GQA至DeepSeek MLA的演变

从MHA到MQA、GQA,再到MLA,注意力机制的演变展示了在效率与性能之间不断优化的轨迹。MLA通过创新的KV缓存压缩和恢复机制,实现了在资源消耗、推理速度和模型性能之间的最佳平衡,为大语言模型的高效部署和应用提供了新的可能性。

2025-02-24 17:10:57 1011

原创 大模型RAG中的分块策略(二)代理分块:详细解释

代理分块是一种复杂的文本分割策略,旨在确保文本块保持其语义连贯性并传达有意义的信息。

2025-02-24 16:19:55 735

原创 大模型RAG中的分块策略(一)什么是分块?分块技术及其策略

分块涉及将文本划分为可管理的单元或“块”,以实现高效处理。这种分割对于语义搜索、信息检索和生成式 AI 应用等任务至关重要。每个块都保留上下文和语义完整性,以确保结果连贯。

2025-02-24 16:13:37 1225

原创 DeepSeek开源 | 什么是KV Cache?如何优化KV cahce?解码中的KV Cache

这部分主要参考。

2025-02-24 15:21:25 1011

原创 KGGen:基于语言模型的知识图谱自动提取系统研究与实现

KGGen的成功开发为知识图谱自动构建领域带来了新的可能。将大语言模型的强大语义理解能力与聚类算法相结合通过迭代式处理提高知识图谱的质量和密度建立了客观的评估基准促进领域发展该研究不仅提供了一个实用的开源工具,更为知识图谱构建和评估方法论提供了新的思路。随着技术的进一步完善,KGGen有望在知识图谱构建自动化方面发挥更大作用。参考资源论文链接:https://arxiv.org/abs/2502.09956代码仓库:https://github.com/stair-lab/kg-gen。

2025-02-23 07:15:00 1104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除