- 博客(544)
- 收藏
- 关注
原创 如何把你的 DeePseek-R1 微调为某个领域的专家?看完这一篇你就懂了!
这篇文章深入探讨了如何通过微调技术来优化大语言模型(如 DeepSeek)的表现,使其在特定领域或任务中更具优势。文章首先解释了微调的必要性及其在特定领域中的应用场景,并将微调与长文本处理、知识库的使用进行对比,帮助读者理解何时选择微调。接着,文章详细介绍了微调的基本流程,包括选择预训练模型、准备数据集、设置超参数等。通过硅基流动平台,读者可以体验在线微调的流程。最后,文章提供了一个使用 Colab 和 Unsloth 工具进行本地微调的实战指南,展示了如何从头到尾微调一个算命大师模型,并将其部署到本地环
2025-04-02 14:58:44
757
原创 人工智能应用就是大模型能力+场景,基于大模型构建应用,首先要了解大模型的能力圈
“大模型的应用是玩出来的而不是看出来的,多体验和尝试不同的模型之间的功能和区别才能让你真正了解大模型的能力。”在关于大模型应用方面,虽然也了解和应用过其中的一些技术;但经过这段时间的实践和思考发现,对大模型应用的认识还很浅显,因此在此记录一下自己的思考。
2025-04-02 11:03:49
986
原创 OpenAI重新开源!第一弹就推理模型,还不限制商用,“冲着DeepSeek来的”
一夜之间,OpenAI更新三大动向,开源、融资、用户暴增。第一,将开源一个具备推理能力的大语言模型,包含参数权重那种。上一次这样开源还是6年前推出GPT-2。这几乎就是冲着DeepSeek-R1来的。
2025-04-01 11:37:43
537
原创 【AI大模型】揭开RAG的神秘面纱:重新定义信息检索的革命性技术,收藏这一篇就够了!!
随着人工智能技术的快速发展,检索增强生成(RAG)作为一种结合检索与生成的创新技术,正在重新定义信息检索的方式。本文深入探讨了RAG的核心原理及其在实际应用中的挑战与解决方案。文章首先分析了通用大模型在知识局限性、幻觉问题和数据安全性等方面的不足,随后详细介绍了RAG通过“检索+生成”模式如何有效解决这些问题。具体而言,RAG利用向量数据库高效存储与检索目标知识,并结合大模型生成合理答案。此外,文章还对RAG的关键技术进行了全面解析,包括文本清洗、文本切块、向量嵌入、召回优化及提示词工程等环节。最后,针对R
2025-04-01 10:36:00
639
原创 【AI大模型】只是RAG了一下,我看到了AI大模型的态度!
如果想让AI大模型在作答的时候,能够做到既准确又丰富,还能观点鲜明有态度,该怎么办?或许,给它一个RAG(检索增强生成)就够了。
2025-03-31 21:31:49
535
原创 【AI大模型】RAG检索增强之ReRank(重新排序)模型,零基础小白收藏这一篇就够了!!
Rerank模型是一种用于优化信息检索结果排序的机器学习模型,通过精细化评估文档与查询的相关性,提升最终结果的准确性和语义匹配度。以下是其核心要点:定义与定位 属于重排序算法,作用于初步检索(如关键词匹配或向量相似度检索)之后,对候选文档进行二次筛选和排序。在RAG(检索增强生成)流程中,与Embedding模型配合使用,形成“粗筛+精排”的协同机制。
2025-03-31 21:08:23
815
原创 【AI大模型】医生群体 DeepSeek 使用指南(建议收藏),看到就是赚到!!
2025,DeepSeek 凭借其强大的推理能力、实时动态分析及高效交互体验,迅速成为医疗领域的焦点。然而,90%以上的医生尚未深入了解这一工具的潜力,仅将其视作简单的问答助手。事实上,DeepSeek 能够为临床决策、科研探索、患者管理等多个方面提供高效支持。在这篇指南中,我们将全面解析 DeepSeek 在医生日常工作中的使用技巧及其在不同医疗场景下的具体应用。无论您是初次接触 AI 工具,还是已有一定经验,本文都将帮助您挖掘 DeepSeek 的更大价值。
2025-03-30 08:00:00
493
原创 Deepseek为什么选择蒸馏模型?一文彻底搞懂大模型蒸馏技术
我们看到,DeepSeek 提供了 7B、8B、14B、32B 等多个中小参数量模型,类似地,Qwen(1.5B、3B、7B、14B、32B)和 Llama(7B、13B、34B)也发布了多个中小参数量模型。然而,它们的生成方式有所不同:DeepSeek 是先训练一个超大参数模型,然后通过蒸馏的方式提供小参数量模型;而其他模型则是通过优化训练过程和模型架构来实现。那么,这两种方式有什么差异? DeepSeek 为什么选择蒸馏模型?
2025-03-29 15:51:32
697
原创 生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较,收藏这一篇就够了!!
生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。在众多生成技术中,扩散模型和Flow Matching尤为引人注目。这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。本文将系统地比较这两种先进技术,深入探讨其数学原理、实际应用及理论解释。
2025-03-29 13:49:24
853
原创 【AI大模型部署】保姆级教程:从零开始部署Ollma和Qwen大模型
我们平时使用的ChatGPT、kimi、豆包等Ai对话工具,其服务器都是部署在各家公司的机房里,如果我们有一些隐私数据发到对话中,很难保证信息是否安全等问题,如何在保证数据安全的情况下,又可以使用大语言模型,Ollma可以告诉你答案!
2025-03-28 11:52:01
987
原创 Agent开发攻略篇:智能体技术的突破与实践之路
在人工智能发展的历史长河中,我们正经历着一场前所未有的技术革命。随着大语言模型(LLM)技术的飞速发展。AI Agent(智能体)作为一种能够自主感知、决策和行动的智能系统,正从概念走向实践,重塑着各行各业的工作方式和商业模式。
2025-03-28 11:28:50
1003
原创 2025年普通人如何入局AI大模型?手把手带你从入门到实践!0基础学习AI大模型,看过的已经月入5w了!
在今年格外紧张的就业市场环境下,许多人都在考虑掌握一门技术以增强自己的竞争力,却往往不知道该选择学习什么。在2025年,学习人工智能无疑是一个明智的选择。对于外行人而言,AI可以被理解为一种模拟人类智能行为的技术,它通过计算机系统来学习、推理、解决问题和执行任务。尽管AI技术本身相当复杂,但其目标是为了使生活和工作变得更加便捷和智能化。
2025-03-27 14:17:31
265
原创 10分钟手把手教学:用deepseek4j开发私有大模型知识库,零基础小白收藏这一篇就够了!!
deepseek4j 提供了一套强大的 API,涵盖了 Reasoner、Function Calling、JSON 解析等特性。本工具旨在简化 DeepSeek API 的集成,让开发者能够快速调用相关能力并集成到自己的应用中。然而,DeepSeek 官方并未提供向量模型,因此本工具在最初设计时未考虑向量搜索的集成。
2025-03-27 10:58:05
651
原创 一文教你如何搭建基于大模型的智能知识库,看到就是赚到!!!
自从2022年底ChatGPT横空出世引爆了大模型技术浪潮,时至今日已经一年有余,如何从技术侧向商业侧落地转化是一直以来业内普遍关注的问题。从目前企业端观察到的情况来看,基于大模型的知识库是一个比较有潜力和价值的应用场景,能够帮助企业大幅提高知识的整合和应用效率。然而由于通用预训练大模型的训练数据主要来源于公开渠道,缺乏企业专业和私有知识,直接使用将难以支撑企业内部的专业知识问答。
2025-03-26 11:30:09
641
原创 一文读懂大模型RAG:检索、增强与生成的技术详解,收藏这一篇就够了!!
大模型(Large Language Model,LLM)的浪潮已经席卷了几乎各行业,但当涉及到专业场景或行业细分领域时,通用大模型往往面临专业知识不足的问题。相对于成本昂贵的“Post-Training”或“Supervised Fine-Tuning”(监督微调,SFT),基于RAG的技术方案成为了一种更优选择。
2025-03-26 10:35:52
671
原创 揭秘!中国医疗领域30+前沿AI大模型深度盘点,引领未来医疗新纪元!
近年来,随着人工智能技术的飞速发展,医疗大模型在中国医疗健康领域的应用日益广泛,成为推动行业智能化转型的重要力量。MarketsandMarkets预测称,到2025年,全球医疗大模型市场规模将达38亿美元,到2030年,这一数字将超过100亿美元。
2025-03-25 14:16:29
713
原创 【AI大模型】构建私人知识库的5个基本步骤,建议收藏起来慢慢学!!
今天,这篇咱们先看看,如何构建一个AI私人知识库,把我们工作的历史数据构建为知识库,这样直接提问它,获取专业服务于个人的答案,效率直接起飞。构建知识库一种方法是使用LangChain,编写100行内代码,就可以自己开发一个基本的知识库,自己动手,丰衣足食。
2025-03-25 11:18:58
877
原创 大模型产品架构全景解读:从应用场景到技术支持的完整路径
随着人工智能技术的迅猛发展,大模型逐渐成为推动各行业智能化转型的核心动力之一。大模型不仅可以处理大量数据,进行复杂任务的自动化,还能通过微调、蒸馏等技术在特定场景中表现出色。本文将结合大模型产品架构图,详细解读每一个组成模块,帮助读者理解从应用场景到技术支持的完整路径,洞察大模型如何在实际业务中落地。
2025-03-24 11:58:54
305
原创 RAG 系统召回优化实战:百万文档中提升检索速度与精度的 4 大方案,建议收藏!!
Retrieval-Augmented Generation(RAG)系统是一种结合检索和生成的技术,广泛应用于问答、对话和内容生成等场景。召回环节作为 RAG 系统的核心,直接决定了系统的检索效率和质量。在本文中,我将基于一个完整的代码示例,详细介绍如何优化 RAG 系统的召回环节,解决百万级文档规模下的速度和精度问题。优化方案包括以下四个方面:
2025-03-24 10:51:35
767
原创 Qwen 2.5 Max与DeepSeek R1测试对比,看到就是赚到!!
随着AI的飞速发展,各大领先语言模型之间的竞争愈发激烈。阿里的Qwen 2.5 Max和DeepSeek V3 (R1) 是这一领域中两款极为强大的人工智能模型。在本文中,我们将分析它们在不同领域的基准测试表现,包括推理、编码、常识以及实际任务等方面。
2025-03-23 08:00:00
718
原创 DeepSeek-R1 + RAG搭建本地知识库,收藏这一篇就够了!
利用DeepSeek-R1与RAG(Retrieval-Augmented Generation,检索增强生成)技术可以快速搭建本地知识库。为确保本地知识库的高效搭建,需先准备DeepSeek-R1模型、相关文档/数据集及部署工具(如Ollama), 随后安装Ollama并部署DeepSeek-R1 ,同时选择并配置文本嵌入模型,最后收集/整理文档并确保其唯一标识符和文本内容, 利用文本嵌入模型转换文档为向量以构建快速检索的索引。
2025-03-22 11:33:47
612
原创 一文搞懂:大模型为什么要设计成预训练和微调两个阶段?看完这一篇你就懂了!!
我们知道在训练大模型时与传统 AI 表现出显著的不同–大模型训练分为预训练和微调的阶段,那么为什么会分为两个阶段呢?
2025-03-22 10:41:51
920
原创 Manus 架构设计揭秘:解构下一代 AI Agent 多智能体架构,建议收藏!!
Manus 的名字源自拉丁语中“手”的含义,寓意其具备将思维转化为行动的强大能力。不同于常规的 AI 助手,Manus 不仅限于提供咨询或答复,它还能直接完成任务的交付。作为一款“全能 AI 代理”,Manus 能够独立完成从简单查询到复杂项目的各种任务,无需用户持续介入。用户只需给出简单的指令,无需具备 AI 专业知识,便能获得优质的结果。
2025-03-21 11:04:27
941
原创 Transformer vs 混合专家(MoE):谁将主导大模型的未来?看完这一篇你就懂了!!
在AI领域,大型语言模型(LLM)的架构创新正掀起一场“军备竞赛”。Transformer和混合专家(MoE)两大架构的较量尤为激烈:前者是统治NLP领域多年的“老大哥”,后者则是冉冉升起的“新星”。它们的竞争,不仅关乎技术路线的选择,更决定了未来AI能否在效率、性能和成本之间找到最优解。
2025-03-21 10:32:28
782
原创 千字长文!最通俗易懂的Transformer模型架构详解!(图文并茂)建议收藏!!
2017 年 Google 在论文《Attention Is All You Need》中提出 Transformer 模型架构,该架构是基于 Encoder-Decoder (编码器-解码器)的架构。作为当下最先进的深度学习架构之一,Transformer 被广泛应用于自然语言处理领域,它不仅替代了以前流行的循环神经网络(RNN)和长短期记忆网络(LSTM),而且后来的 BERT、GPT-3 等网络架构也是基于 Transformer 架构演化而来。RNN 和 LSTM 已经在时序任务方面有了广泛的的
2025-03-20 13:45:50
749
原创 别太天真!RAG若只是文档灌Dify,那要工程师做什么?
在AI技术日新月异的今天,我们对智能助手的期待已经远远超出了简单的问答。你是否曾好奇,为什么有些AI回答精准流畅,而有些却显得答非所问?答案或许就在RAG(Retrieval-Augmented Generation,检索增强生成)——一种正在悄然重塑AI能力的技术。如果你以为RAG只是“把文档丢进Dify”那么简单,那可能就低估了它的复杂性。今天,我们不仅要揭开RAG的核心原理,还要深入解析其中一个关键但常被忽视的环节——分块策略。毕竟,AI要想回答得好,喂它的信息得先切得合适,而这一点,远比想象中更讲究
2025-03-20 10:31:44
892
原创 用LangChain还是LangGraph?官方终于站出来表态了
无论是个人还是企业,当我们想要使用 LLM(大模型)的功能开发出有趣或者有价值的应用时,第一个技术问题通常是“使用什么工具?”在本文中,我们将深入探讨用于构建 LLM 应用程序的两个最流行的框架:LangChain 和 LangGraph。现在生成式 AI 的开发正处于井喷时期,几乎每天都会出现各种新框架和新技术,所以各位在阅读本文时请记住,今天是正确的,明天可能就不正确了!
2025-03-19 11:49:04
1071
原创 LLM大模型:deep research深度研究,吊打传统RAG?
LLM在2年多前火了后,RAG也跟着火了,因其解决了当时LLM的一些缺陷问题:可解释性:数据来自知识库,能找到出处幻觉:最后一步LLM生成response的内容都来自语义相关的chunk,缩小了LLM的生成范围,能在一定程度上避免幻觉时效性:一旦有新数据,加入知识库、向量数据库即可,不需要再微调LLM
2025-03-19 10:18:36
632
原创 轻松搞定:用Python代码调用DeepSeek API的快速指南(详版),建议收藏起来慢慢学!!!
使用 Python 调用 DeepSeek API 是一个非常高效的方式,可以快速实现自然语言处理、代码生成等任务。以下是详细的快速指南,帮助你轻松搞定这一过程。
2025-03-18 11:31:33
484
原创 轻松部署OpenWebUI+DeepSeek API,实现多端互通查询自由
DeepSeek模型很强大,但官方目前存在以下几个痛点不稳定:官方页面、官方API暂时只能提供有限的服务成本高:满血版671B个人电脑很少能带得动的本文介绍nas/云服务器 部署OpenWebUI+DeepSeek API,实现多端互通查询自由,主要有以下几个优点
2025-03-18 10:49:45
1094
原创 想要转行AI大模型赛道?看完这篇少走三年弯路!
最近有朋友说,想转行ai赛道,做大模型之类的工作,不知道有哪些岗位。今天就来聊聊,AI大模型有哪些方向,新人怎么转行大模型赛道,让大家少走弯路,早日在AI领域如鱼得水!
2025-03-17 14:20:44
459
原创 DeepSeek在Mac上本地可视化部署,保姆级教程,再也不怕崩了!
DeepSeek,全称为“深度求索”,是由杭州深度求索人工智能技术研究有限公司开发的人工智能产品。这个名字体现了团队的核心理念与追求:DeepSeek 不仅仅是为了回答问题,更是致力于深度理解和探索,让 AI 具备类似人类的思考方式。更重要的是,DeepSeek-R1 的性能足以与 ChatGPT 相媲美,且完全免费供用户使用!
2025-03-17 11:52:04
1008
原创 DeepSeek私有化:打造专属AI问答并局域网内共享
你的专属大模型终于可以分享给其他人使用了。把自己的内网ip + 3000 端口发给局域网的小伙伴们,即可让小伙伴访问
2025-03-17 11:01:27
979
原创 一文详解-大模型思维链是什么?收藏这一篇就够了!!
思维链(Chain of Thought,CoT),在人工智能领域,是一个非常新颖的概念。我们在日常生活中,比如工作、学习经常用到的思维导图,通过详细的分析步骤,逐步推理问题的过程。这种步骤分解的方式用在提示学习中,就被称为思维链提示,好像**AI有了人的意识一样,AI不再做“填空题”,而是做分析题**,把将大语言模型的推理过程分步骤详细说清楚,直观的展示出来,引导模型生成更准确、更有逻辑性的答案。
2025-03-16 08:00:00
658
原创 AI大脑:自然语言处理(NLP)如何让机器说话、思考和理解?看完这篇你就懂了!!
自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要研究领域,旨在实现计算机对人类自然语言的理解和生成。自然语言处理的目标是让计算机能够像人类一样理解和处理文本或语音信息,实现自动化的语言交流和分析,实现人与机器之间自然、流畅的交互。
2025-03-15 08:00:00
770
原创 AI不只大模型?AI Agent到底有多强?看完这篇你就懂了!!
今天来和大家聊一个当下科技领域特别火爆的概念——AI Agent!前世界首富在其个人博客上写道:AI Agent(AI智能体/助理/助手)“将彻底改变计算机使用方式,并颠覆软件行业”。他还预言“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”。某互联网领军人物在2024年世界人工智能大会上强调:“AI Agent在高考志愿填报中发挥了重要作用,高峰日吸引了200万用户。”
2025-03-14 10:56:40
319
原创 使用 Ollama、Llama 3.1 和 Milvus 实现Function Calling 功能,零基础小白看完就懂了!!
将函数调用(Function Calling)与 LLM 相结合能够扩展您的 AI 应用的能力。通过将您的大语言模型(LLM)与用户定义的 Function 或 API 集成,您可以搭建高效的应用,解决实际问题。本文将介绍如何将 Llama 3.1 与 Milvus 和 API 等外部工具集成,构建具备上下文感知能力的应用。
2025-03-14 10:45:54
782
原创 【AI大模型实战项目】llm-action:让天下没有难学的大模型
下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B,从全量微调到高效微调(LoRA,QLoRA,P-Tuning v2),再到RLHF(基于人工反馈的强化学习)。
2025-03-13 15:55:58
1004
原创 太强了!Ollama + MaxKB零代码本地搭建个人知识库AI应用,数据安全,还可以有权限控制!!
当提到“大模型”和“本地部署”,很多人可能第一反应是:“这是不是只有那些顶尖的技术大牛才能搞定?”其实,随着开源工具的发展,构建自己的大模型和知识库已经变得轻而易举,就像请一个聪明的私人助理帮你处理日常任务一样简单。Ollama 和 MaxKB 就是这样一对黄金搭档,借助它们,你不需要深厚的技术背景,也能在本地搭建一个强大的 AI 系统。接下来,我们将带你一步步实现这个目标,让复杂的技术变得像拼积木一样简单。
2025-03-13 13:50:31
725
原创 大家都在说的AI大模型微调到底是什么?最易懂的AI知识科普!一篇为你解决对“微调”所有的疑问
当我们谈论AI,谈论人工智能领域时,经常会提到“模型微调”。这个词儿听起来可能有些专业,但它的的确确是解锁AI强大潜力,让AI更加精准地服务于我们的需求,推动人工智能落地的关键。
2025-03-12 13:58:19
886
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人