自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(890)
  • 收藏
  • 关注

原创 DeepSeek本地部署+投喂数据训练AI教程!!

DeepSeek-R1,是深度求索(DeepSeek)研发的推理模型,本地部署后完全免费,无使用次数限制。DeepSeek-R1采用的大规模强化学习技术,尤其擅长数学、代码和自然语言推理等复杂任务。DeepSeek-R1系列模型(1.5b~671b)开源且免费,进一步降低了AI应用门槛,赋能开源社区发展。使用教程❶Win版安装教程(Ollama+AnythingLLM安装、DeepSeek模型下载)❷Mac版安装教程(Ollama+AnythingLLM安装、DeepSeek模型下载)

2025-02-05 13:49:42 117759 19

原创 【手把手教你】搭建私有大模型+私有知识库

就是把目前最流行的开源大模型部署到自己的电脑上,无需联网、也不用买会员,隐私可不会泄露,直接可以和AI聊天。就是你可以把你喜欢的资料统统喂给大模型,然后让AI查询你指定的材料,再来回复你的问题。若是在公司搭建这套组合,可以把公司的介绍、产品数据、销售数据等等都发给私有大模型,回复用户的信息就更有针对性。大模型搭建已经分享过了,就不在此赘述,直接进入主题,知识库搭建。AnthingLLM可以直接在其界面上对话,导入各种形式的资料。也可以把本地AI大模型和知识库做成接口API,在企业的其他应用里面去调用。

2024-12-09 17:49:19 3468

原创 【人工智能】未来已来,国内10家AI大模型盘点

阿里达摩院推出的大模型,拥有千亿参数,可用于智能问答、知识检索、文案创作等场景。

2024-06-14 11:24:11 7050

原创 Llama3微调教程:超简单,人人都可以打造属于自己的GPT!

本教程详细介绍了如何使用Unsloth和Google Colab环境对Llama 3进行微调。使用Colab基本上是无脑点击运行就好了。经过这个教程,我们发现微调模型主要有三个核心环节:数据准备,这一步决定了质量;模型训练,这一步硬件资源决定了时间;模型测试,因为我们初步体验,所以比较简略,后续可以进一步探讨。通过本教程,即使是AI领域的新手也能够掌握大模型的微调技术。Unsloth不仅降低了技术门槛,也为个人和小团队提供了强大的工具。如果还有问题,可以查看我的notebook或者进群讨论。

2024-05-29 17:45:59 10313 2

原创 『保姆级』大模型教程来了(从入门到实战)

在大模型的构建之下,AI自动化交互,将会决定世界的未来,谁的大模型更强大,将决定在遥远的未来的话语权,同时,大模型会成为AI基础设施。AI大模型,正在构建的颠覆力,为了更好的入局AI大模型,🔻 针对ChatGLM大模型,介绍ChatGLM模型微调。🔻 大模型的定义和特点,如预训练、微调、指令学习等。🔻 05 精读大模型-3论文、Instruct论文。🔻 04 GLM-130B训练营——论文泛读。🔻 05 GLM-130B训练营——论文精读。🔻 08 Alpaca训练营——论文精读。

2024-04-01 17:50:11 5251

原创 什么是通用大模型?99%的AI产品经理都该懂的底层逻辑

通用大模型(General-purpose Large Language Model, LLM)是指通过海量多样的文本和/或多模态数据训练的深度神经网络模型,其能够在多个领域与任务之间进行迁移和应用,不需要为每个任务单独设计模型。最典型的例子包括GPT系列、Claude系列、DeepSeek等,这些模型具备强大的语言理解与生成能力,能够进行推理、生成、问答等任务。通用:大模型可以应用于多个任务(文本生成、翻译、代码编写等),而非仅仅局限于某一行业或领域。大模型:通常指参数规模大于10亿。

2025-04-01 14:03:19 606

原创 由浅入深,带大家了解什么是Agent

简单来说,Agent 就是那个能。

2025-04-01 13:58:46 386

原创 DeepSeek R1 + Cherry Studio 打造本地 AI 知识库,真的太香了!

Cherry Studio 目前已上线知识库功能,支持多种格式文件的导入和网页导入等来搭建个性化知识库。搭配。

2025-03-31 15:30:55 768

原创 2025 年新风口:一文读懂 AI Agent的定义、原理与应用全景

AI Agent 是一种能够在特定环境中自主感知、决策并执行任务的智能实体。它可以是软件程序(如语音助手)、硬件设备(如工业机器人),甚至是虚拟存在(如数字人)。其核心在于自主性:无需人类实时干预,即可根据环境变化调整行为,实现预设目标。

2025-03-31 15:25:46 502

原创 运用 DeepSeek-R1 构建基础本地知识库

在人工智能技术领域,大型语言模型(LLM)的认知偏差问题一直是研究热点。这类模型在展现强大生成能力的同时,也常因信息处理机制的局限性产生虚构事实现象。从信息论视角分析,该问题本质上是香农熵理论的现实映射 —— 当系统缺乏足够约束信息时,其输出结果的不确定性将显著增加。

2025-03-29 11:06:57 888

原创 Qwen2.5-Omni突然爆火,它究竟是什么?

Qwen 团队最近(2025 年 3 月)发布了一款统一多模态大模型 Qwen2.5-Omni,开放了 7B 版本的权重。能够同时处理,并以。

2025-03-29 11:03:43 771

原创 本地部署DeepSeek+DiFy平台构建智能体应用

RAG(Retrieval-Augmented Generation)检索增强生成是一种将外部知识检索与大语言模型生成能力结合的混合架构。其核心思想是通过检索外部知识库(如文档、数据库、网页等),弥补大模型静态训练数据的局限性;在生成答案时直接依赖检索到的证据,减少模型凭空编造内容的可能性,降低幻觉风险。RAG无需重新训练模型,仅需更新知识库即可适配不同专业领域(如医疗、法律)。类似将大模型视为一个“推理专家”,而RAG系统为其配备了一个“实时资料库助手”。

2025-03-28 14:31:19 705

原创 新手大模型入门:智能体(Agent)

在人工智能领域,这是一个很大的概念,《人工智能:现代方法(第4版)》中定义:“理性智能体是做正确事情的事物”,“理性智能体(Rational Agent)是研究人工智能的方法的核心”,“任何通过传感器(Sensor)感知环境(Environment)并通过执行器(Actuator)作用于该环境的事物都可以被视为智能体(Agent)”。在学术领域,最经典的案例可能是与机器人相关的研究,都涉及到了Agent 技术。在大模型时代之前,比较知名的垂直领域Agent的例子比如 AlphaGo,它有感知环境、做决策、采

2025-03-28 14:17:16 716

原创 deepseek和chatgpt有什么区别?哪个更好用?

DeepSeek与ChatGPT是当前AI领域两大代表性模型,它们在技术架构、应用场景、性能表现等方面存在显著差异,适用性取决于用户的具体需求。两者并非直接替代关系,而是互补。若追求,DeepSeek更优;若需要,ChatGPT仍是首选。未来随着技术迭代,两者的竞争可能进一步推动AI普惠化。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?

2025-03-27 10:47:14 916

原创 【无标题】

RAG通过结合检索与生成,显著提升了生成模型在。

2025-03-27 10:41:57 674

原创 一文详解一产业技术:AI Agent智能体

与大模型和人类通过prompt进行交互的指令导向不同,AI Agent具备了通过独立思考、自主规划、调用工具去逐步完成给定目标的能力,为目标导向。工作原理方面,AI Agent。

2025-03-26 10:54:48 735

原创 DeepSeek及V3/R1系统区别与应用案例

DeepSeek通过V3和R1的差异化定位,覆盖了从通用任务到专业推理的全场景需求。其开源生态与低成本优势,使其在商业、教育、科研等领域快速落地。未来,随着技术迭代,DeepSeek或将在更多垂直领域(如自动驾驶、智能制造)展现潜力。我的DeepSeek部署资料已打包好(自取↓)

2025-03-26 09:58:36 804

原创 从DeepSeek R1到APT:知识蒸馏和扩散模型的推理加速

知识蒸馏是一种有效的压缩模型的手段,而在文生图扩散模型领域里,通常用于步数的压缩。在APT这篇论文中提到的方法,使用真实的数据直接做对抗,并且是直接训练1 step的生成模型,模型加速改进到这一步,其实已经和教师模型几乎没有关系了(只用来初始化)和蒸馏这个概念也没有太大关系,但模型的加速发展历史和加速蒸馏有着莫大的联系的,故有此文。我的DeepSeek部署资料已打包好(自取↓)

2025-03-25 10:59:48 1007

原创 一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操

RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。

2025-03-25 10:54:03 1032

原创 RAG不是简单投喂,还需要精心修枝剪叶

RAG技术为AI的回答能力开启了新世界的大门,而分块策略则是开启这扇门的钥匙。若能选择合适的“钥匙”,AI就能更智能、更精准地为用户提供服务。不过,正如前文所述,RAG绝不是一种“部署即可”的简单技术。从信息存储,到分块策略,再到检索与生成,其中的每一个步骤都可能成为业务落地的阻碍。希望这篇文章能助力读者更好地理解RAG的本质以及分块策略的奥秘,从而在探索AI的征程中少走弯路。

2025-03-24 13:38:55 948

原创 DeepSeek的蒸馏技术到底是什么?

DeepSeek的蒸馏技术通过创新的数据与模型蒸馏结合策略、动态训练优化及轻量化架构设计,实现了高性能与低成本的平衡。其不仅推动了终端侧AI的普及,更在开源生态和产业竞争层面产生了深远影响。未来,随着多模态推理与安全性技术的突破,该技术有望进一步拓展应用边界。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?

2025-03-24 11:27:27 1069

原创 大模型领域,腾讯再放大招

​据知情人士介绍,腾讯混元T1正式版以混元Turbo S为基座打造,亮点在于其是​“混元T1正式版沿用了混元Turbo S的创新架构,采用Hybrid-Mamba-Transformer融合模式。这是工业界首次将混合Mamba架构无损应用于超大型推理模型。”上述知情人士说,这一架构显著降低了训练和推理成本,让混元T1实现首字秒出,吐字速度达到最快80 tokens/s。​混元T1在超长文本推理领域也展现出独特优势,能够有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。

2025-03-22 14:46:51 663

原创 RAG检索增强生成

RAG(Retrieval Augmented Generation,检索增强生成)是一种将大语言模型(LLM)与外部知识源的检索相结合,以改进问答能力的工程框架。它使用来自私有或专有数据源的信息来辅助文本生成,从而弥补LLM的局限性,特别是在解决幻觉问题和提升时效性方面。RAG技术最初源于2020年Facebook的一篇论文——《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》如何让大语言模型使用外部知识进行生成。

2025-03-22 11:37:07 802

原创 一张图彻底拆解DeepSeek V3和R1双模型

DeepSeek-V3-Base,685B参数的MoE架构,256个专家模块,每次只激活8个专家(TopK=8)。简单说,就是“人多力量大,但干活的人少”,既高效又省钱。

2025-03-22 11:09:29 1029

原创 图解 LlamaIndex,刷完文档只为你搞定AI知识库构建

太大的块会包含过多无关信息,太小的块又可能割裂上下文。

2025-03-21 12:02:33 960

原创 深度剖析,DeepSeek大模型领先OpenAI的优势所在!

DeepSeek最新模型R1的推出,瞬间刺破了美国的AI泡沫,奥特曼和扎克伯格紧张到头脑发慌,就连卖显卡的黄仁勋都擦了一把冷汗。究竟是什么魔力,让一家名不见经传的公司搅起翻天巨浪。非任何互联网科技巨头出身的DeepSeek用最先进的算法模型给全世界上了一课,不仅美国科技巨头傻眼,中国科技巨头也感到不可思议。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。

2025-03-21 10:07:31 583

原创 RAG技术全探索:20种方法源码解读与实践

检索增强生成(RAG)是一种结合信息检索与生成模型的混合方法。它通过引入外部知识来提升语言模型的性能,从而提高回答的准确性和事实正确性。与传统的固定长度分块方法不同,语义分块会根据句子之间的语义相似性来确定分块的边界。这种方法通过计算句子嵌入向量的相似度来确定分块。当句子之间的语义相似度低于某个阈值时,就会将文本划分为不同的块。例如,可以使用滑动窗口技术计算句子之间的语义相关性。CCH通过在每个分块的前面添加高级别的上下文信息(例如文档标题或章节标题),然后再对分块进行嵌入处理。

2025-03-20 14:15:43 935

原创 大模型开发实战:使用 LangChain 构建本地知识库应用

LangChain 是一个大语言模型(LLM)

2025-03-20 13:59:25 924

原创 DeepSeek背后的技术,混合专家模型 (MoE) 深度解析!看完这篇,你也能讲明白!

混合专家(Mixture of Experts,简称 MoE)模型,是一种利用多个不同的子模型(或“专家”)来提升大语言模型(LLM)质量的技术。MoE 架构主要由两个核心组件构成:1.专家模块:每个前馈神经网络(FFNN)层包含一组“专家”,每次可从中选择一个子集。这些“专家”本身通常是 FFNN。2.路由或者网关网络,决定将哪些标记(token)分配给哪些专家。在采用 MoE 架构的大语言模型的每一层中,我们会发现这些专家模块往往具有这样的特点:

2025-03-19 14:19:40 980

原创 大白话讲解: Agent、 LLM 、RAG 、提示词工程

LLM是大脑,负责理解用户需求、生成文本;RAG提供最新景点和餐厅数据,避免推荐已关闭的店铺;Agent协调整个流程:先查天气,再调地图API算路线,最后用LLM生成行程;提示词则是你给AI的详细需求文档,确保输出符合预期。

2025-03-19 14:00:06 994

原创 什么是LLM代理,它为何能让ChatGPT变成真正的“智能体”?

近年来,大型语言模型智能体(LLM Agents) 这一概念正在迅速兴起,似乎有取代我们熟悉的传统对话式大型语言模型之势。所谓LLM智能体,简单来说,就是让原本只会“下一字预测”的语言模型具备更强的自主决策和行动能力,从而完成复杂任务。要理解LLM代理,先回顾一下普通大型语言模型(LLM)的基本能力:传统LLM的本质是在给定上下文的情况下预测下一个最可能的词,从而生成连贯的文本。然而,当我们与LLM持续“对话”时,很快就会发现它的一个主要弱点:它并不真正“记得”先前说过的话。

2025-03-18 14:15:54 869

原创 Deepseek:开源破垄断,重塑AI产业新格局

此前,高性能的AI大模型被OpenAI等个别公司垄断,并且由于成本高,只有少数大企业才能获得AI服务,探索相关AI应用,但是DeepSeek开源之后,直接消除了模型壁垒,所有人都能够获得比肩OAI的高性能大模型,所有企业和个人都能够以非常低(不到前期成本的95%)的成本获得高性的能大模型,并在此基础上进行AI应用的探索、迭代。最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。

2025-03-18 14:12:37 884

原创 Agent AI看这一篇就够了:智能体技术新纪元

Agent AI是一种融合了多种先进技术的智能体技术,它能够感知环境、理解多模态信息(如视觉、语言等),并基于这些信息做出自主决策和行动。与传统的AI不同,Agent AI更强调智能体与环境的交互和适应能力,就像一个能够在虚拟或现实世界中自主行动的“智能代理人”。要理解Agent AI如何工作,必须先解剖它的“身体结构”。环境感知:通过摄像头、传感器捕捉物理/虚拟世界信息任务规划:LLM将复杂目标拆解为可执行步骤(如“建造房屋”→地基→结构→装饰)记忆系统:存储历史交互数据(类似人类情景记忆)

2025-03-17 14:44:47 808

原创 DeepSeek 版本对比:基础版 vs 满血版 vs 蒸馏版

基础版(DeepSeek-V3):DeepSeek-V3是混合专家(MoE)架构的通用基础模型,总参数规模达 671B(6710亿),每个token激活约37B参数。它定位于通用NLP任务,强调高效和可扩展性,在智能客服、内容创作、知识问答等场景下提供高性价比的AI能力。DeepSeek-V3经过14.8万亿token的大规模预训练,性能超过其他开源模型并可媲美主流闭源模型。其推理速度显著提升(V3比V2快3倍,每秒约60 tokens)。基础版模型注重通用语言理解,但在复杂推理上不及经过强化的R1。满血版

2025-03-17 14:38:43 924

原创 Deepseek V3/R1 技术内核 及 RAG 技术前沿进展

MLA 是一种技术,旨在通过优化模型的推理效率和性能,同时保持较低的内存占用。接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。

2025-03-14 14:44:12 583

原创 如何高效提升大模型的RAG效果?多种实用策略一次掌握

在大模型普及的今天,很多人发现,尽管模型变得越来越强大,但有时候它给出的回答仍然可能离奇到让人怀疑人生。比如你问它某个真实人物的信息,它却能一本正经地编出一个虚构的背景故事——我们管这叫“模型幻觉”。为了解决这一问题,一种叫作RAG(检索增强生成,Retrieval-Augmented Generation)的技术应运而生。简单来说,RAG就像是给大模型装上了一套“外置记忆库”,当模型回答问题时,可以从这个记忆库中查找准确的信息,避免自己“胡编乱造”。举个简单的例子:假如你问:“北京大学创立于哪一年。

2025-03-14 14:38:10 919

原创 一文看懂蒸馏模型

蒸馏模型通过“大教小”实现了性能与效率的平衡,是AI落地的重要技术。其核心在于利用教师模型的“经验”优化学生模型,适用于从移动端推理到工业级部署的广泛场景。

2025-03-13 14:17:09 941

原创 AI 大模型常识之:如何评测大模型能力

评估大模型的能力是一个复杂而系统的工程,需要从多个维度,运用多种方法进行全面、深入的考量。语言能力、知识储备、推理能力和应用能力等维度,从不同角度反映了大模型的能力水平;人工评估、自动评估和基准测试等方法,则为我们提供了多样化的评估途径。通过实际案例分析,我们更加直观地了解了大模型在不同场景下的表现以及评估过程中需要注意的问题。未来,随着大模型技术的不断发展和应用场景的日益丰富,大模型能力评估也将面临新的机遇和挑战。一方面,我们需要不断完善和创新评估维度和方法,以适应大模型技术的快速发展。

2025-03-13 14:10:20 739

原创 一文了解八款主流大模型推理框架

当前大模型推理平台/引擎生态各具特色,从企业级高并发服务到本地轻量化部署,从国产硬件优化到前沿编译技术探索,每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标,更要结合业务场景、硬件资源与未来扩展规划。未来,随着技术的不断进步和产业协作的加深,大模型推理生态将呈现出更加多元、灵活和高效的局面,为各领域在激烈竞争中抢占先机提供强大支撑。

2025-03-12 11:23:41 1046

原创 深度解析 DeepSeek 模型在中文语境下的安全挑战

研究通过构建 CHiSafetyBench 这一中文安全评估基准,首次对 DeepSeek-R1 和 DeepSeek-V3 模型在中文语境下的安全性进行了全面、深入的量化评估。实验结果以及案例分析清晰地表明,DeepSeek 模型在中文语境下存在着不容忽视的安全漏洞,尤其是在处理涉及歧视、敏感话题、违法犯罪等风险内容时,表现出明显的不足。

2025-03-12 11:18:32 901

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除