- 博客(665)
- 收藏
- 关注
原创 一文读懂AI Agent提示词
提示词(Prompt)本质上是一种注入式指令,它是用户输入到 AI 模型中的一段文本或指令,引导模型生成特定的响应或完成特定的任务。简单来说,提示词就像是你与 AI 对话的起点,你通过它设定对话的背景和需求,AI 基于这些信息为你生成回应。
2025-04-04 09:30:00
293
原创 大模型基础知识汇总(非常详细)零基础入门到精通
基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,能够进行复杂对话、文本创作等任务。这是AI研究的理想目标,追求创造能像人类一样学习新技能、解决广泛问题的智能体,目前仍处于理论探索和初步实践阶段。利用AI技术生成的各种内容,从文本、图像到视频,利用算法创造新颖、个性化的内容,如AI艺术画作或定制文章。在AI大模型中用于引导模型生成特定类型输出的上下文信息或指令,例如,告诉模型“写一篇科幻故事”。
2025-04-02 09:58:27
815
原创 用DeepSeek自动生成PPT数据分析报告,最详细的教程来了
学了这么多DeepSeep+Excel牛X应用,但昨天还是被它又一个惊天操作给震撼到了。它它…竟然可以把财务三大报表(资产负债表、损益表和现金流量表)自动生成PPT报告。由上面excel报表自动生成的精美PPT财务报告如果我不说,你一定以为这是熬夜加班做出的数据分析报告,但用DeepSeek+Kimi,我只用了1分钟就完成了。闲话少说,一起跟做吧。打开DeepSeek官网(https://www.deepseek.com/)点击开始对话,点击曲别针按钮上传三大报表的excel文件。。
2025-04-02 09:43:12
385
原创 从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略
大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。因此,近年来开发了多种LLM定制策略,以便针对需要专业知识的不同场景调优模型。
2025-04-01 09:41:44
1091
原创 DeepSeek-V3
DeepSeek-V3是一款2024年12月提出的混合专家(MoE)语言模型,整体参数规模达到 671B,其中每个token激活的参数量为37B。在性能上超越了同期其他开源模型,并能够与主流闭源模型相媲美。
2025-04-01 09:31:52
315
原创 图解DeepSeek-R1
DeepSeek 真的火出圈了,ML 大神 Jay Alammar 及时送上一篇好文。DeepSeek-R1 是人工智能进步浪潮中的最新强音。与现有的大多数 LLM 一样,DeepSeek-R1 也是一次生成一个 token,不同的是,它在解决数学和推理问题时表现尤为出色,因为它能够通过生成“思考 token”来解释其思维链,从而花更多时间处理问题。:在这个阶段,我们使用海量网络数据训练模型,以预测下一个词。此阶段的产物是一个基础模型。:通过监督微调,使模型在遵循指令和回答问题方面更加实用。
2025-03-31 13:54:06
733
原创 一文了解10个AI大模型常见的名词术语(模型参数、上下文长度、量化、蒸馏、Token、MOE、RAG、RL、智能体、具身智能)
随着DeepSeek+应用在各行各业的逐步落地,AI大模型有关的名词术语被越来越多的人讨论,比如常见的等到底是什么意思?本文我们简单聊聊上面提到的10个名词或术语!
2025-03-31 13:43:42
1047
原创 2025用DeepSeek做二道贩子成为了赚大钱最快的方式
DeepSeek是一款基于大语言模型的AI工具,类似于ChatGPT,但更强大。它不仅能生成内容,还能挖掘爆款灵感,优化文案,甚至帮你找到最适合销售的产品。简单来说,DeepSeek能让“复制成功”变得前所未有的简单。
2025-03-29 09:26:36
1118
原创 阿里开源Qwen-2.5-Omni,7B实现全球最强性能,看听说写全模态打通
总的来说,Qwen2.5-Omni是一个很有潜力的多模态大模型。它在技术架构、性能表现和应用场景上都有很多优点。不过,它也有一些问题需要解决,比如在复杂场景下的稳定性、细节处理的精度、交互的深度,还有资源限制等方面。我相信,随着技术的不断进步,这些问题都会慢慢解决。多模态大模型以后一定会在更多领域发挥重要作用,给我们的生活和工作带来更多的便利和惊喜。不过,现在说它能彻底改变行业格局还太早了,它还有很长的路要走。
2025-03-29 09:19:20
1002
原创 DeepSeek R1 满血版!终身不限量使用,超级快!
人工智能(AI)是一种致力于模拟、拓展和增强人类智能的新兴科学技术,涉及理论、方法、技术和应用系统的研发。作为计算机科学的重要分支之一,人工智能的目标是创造出能够像人一样思考并作出相应反应的智能机器。这种技术已经在众多领域得到了广泛应用,例如机器人技术、语音识别、图像分析、自然语言处理以及专家系统等,并逐步成为推动社会进步的关键力量,如自动驾驶汽车、个性化推荐算法、医疗影像诊断等领域。从研究层面看,人工智能不仅涵盖计算机科学的核心内容,还融合了心理学、哲学等相关学科的知识体系。
2025-03-28 09:37:54
717
原创 谷歌地表最强模型深夜来袭!Gemini 2.5 Pro发布即屠榜,代码推理杀疯了
就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!Gemini 2.5 Pro是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。
2025-03-28 09:32:49
869
原创 DeepSeek与OpenAI全面比较
DeepSeek则是一个基于深度学习技术的大模型框架,采用了Transformer架构,并在其基础上进行了多项优化。它拥有数千亿个参数,能够捕捉到更加复杂的语言模式和语义信息。DeepSeek的训练数据涵盖了多种语言、领域和任务类型,使其在处理不同场景和问题时表现出更高的适应性和准确性。
2025-03-27 09:33:32
709
原创 微调:提升大模型性能的高效方法
*微调(Fine-Tuning)**是提升大模型性能的重要手段,能够让通用大模型适应特定任务。随着 LoRA、QLoRA、Unsloth 等高效微调工具的出现,微调的成本和门槛进一步降低,使得个人开发者和企业可以更灵活地优化模型性能。在实践中,我们应该结合提示工程、RAG 和 Agent 机制 来选择最优的优化策略,从而在成本、效率和性能之间取得平衡。
2025-03-27 09:25:21
902
原创 LLM 推理基石与实践准备
大型语言模型(Large Language Models, LLMs)推理(Inference)是指利用已经过大规模数据训练好的 LLM,针对给定的输入(通常称为 Prompt),生成符合预期或任务要求的输出的过程。简单来说,推理就是让训练好的模型“思考”并“回答”我们的问题或完成我们提出的任务。特征训练 (Training)推理 (Inference)目标学习数据中的模式和规律,调整模型参数,使其能够完成特定任务。利用已学习到的模型参数,根据输入生成输出。数据大规模的标注或无标注数据集。
2025-03-26 10:19:42
1085
原创 大厂接入DeepSeek,自己的大模型怎么办?
现在还要没有接入DeepSeek的科技大厂吗?盘点下来,好像还真没有了。从国外的英伟达、亚马逊、微软等头部大厂,到国内的BAT、华为和字节跳动,DeepSeek出圈后不就,但凡叫得上名的科技大厂都做出了同样的一个决定,伸出双手“拥抱”DeepSeek。媒体热衷于分析大厂们的决策带来的变量,在其中有一个问题被很多人忽略,那就是这些大厂之前自研的大模型怎么办?
2025-03-26 09:25:01
675
原创 AI时代,一文彻底搞懂天天被提到的Agent是什么?
AI Agent(人工智能代理)是一种能够并的智能实体。与传统AI系统不同,Agent不仅能回答问题,还能主动完成一系列复杂任务。简单来说,如果把大语言模型LLM)比作一个"超级大脑",那么AI Agent就是给这个大脑装上了"手脚"和"工具",让它能够像人类一样主动行动,而不仅仅是被动回答问题。举个例子,如果你对ChatGPT说:“帮我写一篇关于气候变化的文章”,它会直接生成一篇文章。但如果你对AI Agent。
2025-03-25 10:09:42
1736
原创 以批判性视角审视 R1-Zero-Like 训练
DeepSeek-R1-Zero 已经证明,大规模强化学习(RL)可以在不依赖监督微调的情况下直接增强大语言模型(LLM)的推理能力。Sea AI Lab 的研究人员对 R1-Zero 训练方法进行了深入分析,重点探讨其两个核心组成部分:基础模型和强化学习。研究人员研究了多种基础模型,包括 DeepSeek-V3-Base,以理解预训练特性如何影响强化学习的表现。
2025-03-25 09:25:51
923
原创 小白也能轻松理解的大模型入门锦囊!
大模型,英文名叫Large Model,也被称为基础模型(Foundation Model)。我们通常说的大模型,主要指的是其中最常用的一类——大语言模型(Large Language Model,简称LLM)。除此之外,还有视觉大模型、多模态大模型等。所有这些类别合在一起,被称为广义的大模型;而狭义的大模型则特指。
2025-03-24 10:06:41
586
原创 XXL-JOB + Deepseek打造智能金融理财助手
内容创作:比如通过你的名字给你作一首诗。比如给你生成吸引人的广告文案。聊天机器人:比如客服答疑,比如英语口语陪练。逻辑推理:比如辅助医生分析病例、生成诊断建议。比如帮你做一道数学题目。大部分的交互方式,都是通过自然语言和大模型进行对话,由人主动发起,如下:风险监控:定时监控系统指标,由大模型进行智能分析,发现潜在的风险。数据分析:定时采集在线金融数据,由大模型进行智能分析,给出投资者建议。
2025-03-24 09:43:10
1384
原创 推理模型是啥?普通LLM和推理模型有啥不一样?啥时候该用推理模型?
自从DeepSeek爆火后,一直听到一个词:“推理模型”。那如何定义“推理模型”?普通 LLM与推理模型有何不同?什么时候应该使用推理模型?今天,我们就来剖析下~
2025-03-22 10:13:22
627
原创 最新研究:深度解析DeepSeek模型6大核心技术!
DeepSeek团队对传统Transformer架构进行关键优化,引入MLA机制。该方法通过在注意力头间引入隐变量交互,解决了标准Transformer中注意力头独立计算导致的局部信息割裂问题。具体而言,MLA允许不同注意力头通过共享的潜在空间进行信息融合,使模型能更高效捕捉跨层、跨头的长程依赖关系。实验显示,MLA将模型在长文本生成任务中的连贯性提升23%,同时仅增加5%的计算量。
2025-03-22 09:36:11
911
原创 4种模型优化技巧,节省80%算力,性能翻倍
梦想照进现实,却被业务效果狠狠打脸。今天给大家深入讲解下模型蒸馏、量化、微调、RAG四种技术,学习如何结合实际业务选择合适的方法,告别人工智障。
2025-03-21 10:22:44
755
原创 DeepSeek-R1 背后的数学原理
在本文中,我们将深入探讨 DeepSeek-R1 的数学和方法论核心,剖析其采用的强化学习(RL)技术,并分析促成这些卓越成果的创新点。在提升 LLM 推理能力的传统方法中,最常见的包括思维链 (CoT) prompting(Wei 等,2022),即鼓励模型明确列出其推理步骤,或是通过监督微调(Supervised Fine-Tuning, SFT)在包含推理示例的数据集上进行训练。这些方法在一定程度上提高了模型的推理能力,但往往难以赋予模型真正灵活的推理能力。
2025-03-21 09:24:40
1009
原创 剖析MCP、LangChain、Function Call与Agent差异,展望LLM + MCP Server新形态
结合MCP来看,我会更加觉得,随着基座大模型能力的逐步增强。最终的形态会不会就是:LLM + MCP Server。我提供一整套工具箱给到LLM,然后告诉它我需要实现一个什么任务,让它自行拆解任务、调用工具,规整结果后继续下一步分析,直到完成任务。现阶段或许他会是OpenManus那种形态,也或许它会是Clien+LLM+MCP。
2025-03-20 09:33:29
1307
原创 DeepSeek 教师教学全流程操作手册
DeepSeek虽然好用,但老师可以参考“三七法则”使用。70%的基础工作交给AI,保留30%的核心思考区。让AI成为第二大脑而非替代大脑。
2025-03-20 09:30:54
810
原创 DeepSeek R1 + Ollama + Cherry Studio 实现本地化部署 + 可视化访问,真的太香了!
Cherry Studio 是一个支持多服务商集成的 AI 对话客户端,CherryStudio 目前支持市面上绝大多数服务商的集成,并且支持多服务商的模型统一调度。官网地址:https://cherry-ai.com。
2025-03-19 10:45:08
581
原创 大模型推理框架RTP-LLM Embedding技术揭秘
Embedding(嵌入)是现代机器学习和深度学习的重要组成部分,通过将离散数据映射到连续向量空间,解决了高维稀疏性和语义表达的问题。它在自然语言处理、推荐系统、计算机视觉等领域有着广泛的应用。RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部,本文将介绍项目在Embedding框架上的实践和思考。
2025-03-19 10:41:29
670
原创 「DeepSeek-V3 技术解析」:多头潜在注意力机制(MLA)
在每个解码步骤中,仅计算新的查询向量 Q(Query),而缓存中存储的 K(Keys)和 V(Values)会被复用,注意力机制将通过新计算的 Q 与复用的 K、V 进行运算。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
2025-03-18 09:42:39
1088
原创 深度解析AI大模型智能体(Agent)及十大开发框架和十大开发平台
AI 智能体(AIAgent)是一种能够自主感知周遭环境、进行分析决策以及执行行动的智能系统。其核心特质在于能够仿若人类一般拆解复杂任务,并调用工具逐步达成目标。譬如,倘若您让它“买咖啡”,它将会自行开启外卖 APP 进行选品、调用支付接口完成下单,全然无需人工予以干预。
2025-03-18 09:34:19
1759
原创 Deepseek为什么选择蒸馏模型?一文彻底搞懂大模型蒸馏技术
DeepSeek 提供了一系列中小参数量模型,涵盖了 7B、8B、14B 和 32B 参数规模。类似地,Qwen(1.5B、3B、7B、14B、32B)和 Llama(7B、13B、34B)也推出了多种中小参数量模型。然而,它们的生成方式存在显著差异:DeepSeek 采用了先训练一个超大参数模型,然后通过蒸馏技术生成小参数量模型的方法;而其他模型则通过优化训练流程和模型架构来实现其性能提升。那么,这两种方法之间存在哪些具体差异?为何 DeepSeek 决定采用模型蒸馏技术?
2025-03-17 10:26:19
994
原创 SuperRAG:超越RAG的布局感知图建模
本文介绍了用于多模态RAG的布局感知图建模。与传统RAG方法主要处理平面文本块不同,所提出的方法通过使用图结构考虑多模态之间的关系。为此,基于文档布局解析定义了一个图建模结构。输入文档的结构通过文本块、表格和图表的连接得以保留。这种表示方法允许该方法处理需要来自多模态信息的复杂问题。为了确认图建模的效率,开发了一种灵活的RAG流水线,使用强大的组件。在四个基准测试集上的实验结果证实了布局感知建模对RAG流水线性能提升的贡献。
2025-03-17 09:47:08
940
原创 从DeepSeek-R1到通义R1-Omni!中国AI齐头并进
随着DeepSeek R1的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路。
2025-03-15 11:00:00
182
原创 用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek R1 的工作机制。
2025-03-14 09:58:25
911
原创 盘点主流Multi-Agent智能体开发框架
在AI技术快速迭代的2025年,AI Agent框架已成为开发者构建智能应用的核心工具。从单智能体到多智能体系统(Multi-Agent System, MAS),开源社区涌现出多个颠覆性框架。面对众多的选项,选择一个最匹配自身需求的 Multi-Agent 框架成为了众多开发者与企业需要解决的关键问题。本文将盘点当前最主流的开源AI Agent框架,并探讨其技术特性、应用场景与框架选型。AutoGen 作为微软在多智能体领域推出的早期且广受欢迎的框架之一,微软的开创性作品,专为软件工程打造,旨在为软件开
2025-03-14 09:24:40
836
原创 3分钟!教会你用Doris+DeepSeek搭建RAG知识库(喂饭级教程)
知识库AI智能化是一个永无止境的进化过程。随着大模型技术的发展,未来可以探索更多优化方向:• 实时更新:支持增量同步,保持知识时效性• 知识推理:引入知识图谱,提升问答准确性• 多模态支持:除文本外,支持图片、音视频等富媒体内容技术在飞速发展,但打造一个好的知识库系统不仅仅是技术问题。建议从小规模试点开始,在实践中不断优化,让系统真正服务于业务需求。
2025-03-13 10:10:27
998
原创 一文讲透 AI Agent 与 AI Workflow 的区别和深度解析:从自动化到智能化的演进
AI Agent:AI Agent 是一个具有自主意识的智能实体,它能够感知环境、进行推理决策,并采取相应行动。就像一位能干的私人助理,它不仅能执行指令,更重要的是能够理解任务背景、制定执行计划,并在遇到问题时灵活调整策略。AI Agent 的核心在于其自主学习和决策能力,它能够通过不断积累经验来优化自己的行为模式。AI Workflow :AI Workflow 则更像是一条智能化的生产线,它由一系列预定义的、具有明确顺序的任务步骤组成。
2025-03-13 09:54:51
629
原创 一文带你搞懂DeepSeek开源周:多项核心技术全面解析
DeepSeek 刚刚开源了六个强大的软件库,用于解决 LLM 训练、推理和数据基础设施中的一些最困难的问题。DeepSeek站在Transformer的肩膀上,让生成式AI技术得以普惠大众,同时也将自行研发的技术开源回馈社会。虽然其中许多技术都出现在早期的 DeepSeek 论文中,但最终看到实际代码公开发布还是令人欣喜。对于像我们这样的研究人员和开发人员来说,这意味着我们现在有了具体的示例和工具来构建更高效、可扩展的 LLM 管道。
2025-03-12 09:29:10
1823
原创 当Dify和Coze摆在你面前,你会怎么选? ——聊聊这两个AI工具的灵魂差异与未来启示
Dify像个技术宅工程师,专注帮开发者造“智能流水线”。它开源、能接全球主流大模型(比如GPT、Claude),让你用拖拽式界面编排复杂工作流。企业用它做合同审核、数据分析,甚至搭个AI客服系统,就像搭乐高一样自由。
2025-03-12 09:22:59
1166
原创 独家!浙江大学版 153 页 DeepSeek 实战宝典(免费领取)
当国际大厂踟蹰不前,DeepSeek已强势破局,中国AI实战成果远超硅谷“PPT革命”。浙江大学《DeepSeek行业应用案例集》153页全是干货,是智能变革的关键指引。其亮点何在?看看这些领域的应用(文末可免费获取)。
2025-03-11 09:58:00
742
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人