自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(635)
  • 收藏
  • 关注

原创 大模型应用实战:使用PEFT库进行ChatGLM3-6B模型的QLORA高效微调

LoRA的核心思想是将可调整的低秩矩阵注入到Transformer架构的每一层中,充当"适配器"的作用。这样可以使模型针对特定任务进行调整和专门化,同时最大限度地减少额外的参数数量,提高参数效率。QLoRA是LoRA的扩展版本,在微调过程中引入了量化技术,以进一步提高参数效率。QLoRA利用LoRA的原理,并引入了4位NormalFloat(NF4)量化和双重量化技术,进一步减少了存储和计算资源的使用。

2025-03-31 21:28:32 992

原创 保姆级教程!手把手教你从零开始基于 Langchain-Chatchat 搭建本地大模型知识库

本项目支持市面上主流的开源 LLM、 Embedding 模型与向量数据库,可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型 API 的接入。最新的 0.3.x 版本功能如下列表所示。

2025-03-31 21:26:30 923

原创 清华大学:大模型安全实践白皮书(附完整PDF下载)

该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。

2025-03-28 14:36:37 652

原创 Fastgpt结合Ragflow构建本地表格知识库,效果拉满!【喂饭级教程】

搭建之后也关系到你的虽然fastgpt支持直接导入Excel,但是,导入知识库的,导致知识库问答效果不佳。优化知识库的问答效果不是一蹴而就的,需要经过反复调整,反复测试。而且是多维度的优化。语言模型、索引模型、重排模型、RAG的方式、数据的质量、知识库的参数、大模型的参数等等都会对知识库的问答效果产生影响。数据预处理我们先达成共识,在知识库把数据转换为向量之前,对原始文件做的数据清洗、整理、优化叫做构建知识库的第一关就是—— 把各种非结构化文件转化为结构化数据(或者说提取整理、清洗数据)。

2025-03-28 14:22:50 772

原创 本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用!

使用Huggingface上的开源医疗数据集,借助 RAGFlow 搭建自己的本地医疗问诊助手。原理:RAGFlow是一个基于对文档深入理解的开源 RAG(检索增强生成)引擎。它的作用是可以让用户创建自有知识库,根据设定的参数对知识库中的文件进行切块处理,用户向大模型提问时,RAGFlow先查找自有知识库中的切块内容,接着把查找到的知识库数据输入到对话大模型中再生成答案输出。

2025-03-28 11:48:57 689

原创 AI大模型落地应用实战:DeepSeek + RagFlow + Ollama + 私有知识库 构建本地知识库系统实战指南

本文将带您构建一个集大模型推理、智能检索、知识加工于一体的本地知识库系统,深度融合DeepSeek认知大模型的语义理解能力、RagFlow的文档智能处理能力以及Ollama的本地化部署优势。: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

2025-03-26 16:36:57 1143

原创 AI大模型应用实战:构建基于知识图谱的知识问答系统

知识图谱(Knowledge Graph)是一种结构化的语义知识库,它以图形的方式组织和整合信息,使得数据之间的关系变得直观和易于理解。知识图谱的概念融合了计算机科学、数据科学、人工智能等多个领域的技术,旨在通过关联分析揭示数据背后的深层次关系。

2025-03-26 16:28:37 625

原创 不懂RAG?看这一篇万字长文就够了!

本文转载自:大语言模型论文跟踪,主要是对论文《A Survey on Knowledge-Oriented Retrieval-Augmented Generation》的解读。论文链接:https://arxiv.org/abs/2503.10677传统的语言模型,比如 GPT-3,虽然在生成文本方面表现出色,但它们有一个显著的局限性:它们依赖于预训练的参数,无法动态访问外部知识。这意味着这些模型在处理实时信息、领域特定知识或罕见实体时表现不佳。

2025-03-26 16:01:18 895

原创 无需代码DeepSeek R1满血版本地部署+各应用(完整工具包)+保姆级教程

deepseek厉害的地方还在于能开源,自己的电脑可以部署使用,不需要联网了,老旧电脑都能跑,直接放教程了。

2025-03-24 14:20:31 2285

原创 如何从零训练一个LLM:尝试基于0.5B小模型复现DeepSeek-R1的思维链

1.虽然微调第一步得到的SFT模型已经能够输出思维链,但是其回答问题的准确性还比较差,因为SFT训练的重点其实是整体的回复质量,而不是专注于正确答案;2.但如果不经过SFT训练,直接使用GRPO的话,一开始模型的输出是没有思维链的,又无法准确提取答案,导致没有任何奖励,变得难以训练,或者选择能力更强的底座模型;3.因此对于聊天类的数据,可以考虑直接使用SFT去微调,因为整体的回复质量更为重要,而对于数学/代码等要求正确答案/能否运行的数据,可以SFT+强化学习。\4. 完整代码。

2025-03-24 14:11:59 720

原创 学习大模型真不难!常见的问题就这么多!想要快速入门大模型,这本大模型中文书你一定一定要好好阅读!!

中国人民大学在 arXiv 网站发布了英文版大语言模型综述文章《A Survey of Large Language Models》,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。同时,为了促进大模型知识在中文社区的传播,推动中文大模型研究,中国人民大学对英文版进行了翻译校对,推出了首个中文版大语言模型综述!模型架构(Transformer 结构、大模型主流架构、细节改进)解码与部署(解码生成算法、解码加速算法、模型压缩算法)大模型资源(开源模型、数据、代码库)

2025-03-24 13:59:25 481

原创 零代码搭建本地知识库:基于DeepSeek+RAG+Ollama+Cherry Studio全流程指南

核心价值企业敏感数据100%离线处理个人知识库智能问答本地模型快速响应支持PDF/Word/网页等多格式文档工具链Ollama:开源模型托管平台(支持150+模型):深度求索开源的16K长文本大模型:中文语义向量模型:AI应用可视化客户端本方案在Intel i7-12700H + RTX 4070设备上实测,可流畅处理200页以内的技术文档问答。通过本地化部署既保障了数据安全,又充分发挥了DeepSeek模型的逻辑推理能力。

2025-03-22 13:52:12 923

原创 (干货篇)一文带你将 DeepSeek 部署到本地,并对接至Vscode!

将 DeepSeek 部署在本地,就像给你的电脑装了一个“AI大脑”,从此写报告、改代码、查资料再也不用求人。而且完全离线操作。无论是学生、上班族还是开发者,都能用它大幅提升效率。

2025-03-22 13:48:29 911

原创 一文彻底搞懂大模型 - Agent(智能体)从零基础到精通,看这篇就够了,赶紧收藏!!!

大模型Agent是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。

2025-03-21 12:01:07 804

原创 实战模型蒸馏 | 保姆级教程单卡L20高效训练Qwen2.5模型

李飞飞团队提出的‌Simple Test-Time Scaling(S1)‌通过动态调整模型预测置信度,在ImageNet上已实现3.2%的平均准确率提升。本教程将手把手教您在‌单卡L20‌上,用‌s1K-1.1数据集‌完成‌Qwen2.5-0.5B Instruct‌模型的S1适配训练。🔥 李飞飞团队全新发布的‌‌,在L20显卡上实测训练耗时降低47%!本文手把手演示如何用‌‌实现:✅ 3小时完成Qwen2.5-0.5B模型S1适配✅ 测试集准确率提升3.3%+✅ 动态温度参数可视化监控。

2025-03-21 11:57:57 594

原创 零基础小白必看!手把手教你用 Ollama + DeepSeek + Cherry Studio 打造本地智能体

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。1.再次打开Ollama官网,地址:https://ollama.com/,点击MODELS,选择需要的大模型,这里我们选择deepseek,下拉选中7B,再次点击右边复制图例。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。的爆火,远不止于此。(可以根据自己系统进行选择)

2025-03-21 11:47:58 778

原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码

大规模语言模型·从理论到实践》旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。在撰写本书时,我们力求全面展现大模型研究的各个方面,并避免给出没有广泛共识的观点和结论。复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!

2025-03-20 14:52:29 922

原创 超详细!使用 DeepSeek+Docker+Dify 搭建个人知识库

随着 DeepSeek 不断爆火,越来越多的个人和企业都在搭建属于自己行业或自己的私域知识库,那么我们应该怎么使用 DeepSeek 来搭建只属于自己的私域知识库呢,其实不难,就让我们来一探究竟。基于 DeepSeek 搭建个人私域知识库的流程图如下所示:图 1 DeepSeek 模型搭建层流程拆解图 2 知识库应用层流程拆解首先,我们来完成私域知识库需要的模型层的搭建工作。

2025-03-20 14:44:14 1500

原创 使用Dify + DeepSeek在本地电脑搭建工作流,太香了

工作流是由于DeepSeek等大模型的兴起而开始风靡的,它可以基于AI和流程设计来实现自动化的AI应用,比如说自动化生成业务报告、AI自媒体写作、简历筛选机器人等。这些复杂繁琐的工作可以通过DeepSeek这类的大模型生成解决方案,并最终输出结果,形成一套工作流。目前市面上有不少搭建工作流的工具,比如字节Coze、腾讯元器、OpenAI GPTs等,支持通过拖拉拽设计工作流实现一个AI工具的搭建,但这些平台都是大厂的商业应用,你只能在它的平台里搭建和使用,无法离线部署,缺乏应用的灵活性和数据安全性。

2025-03-20 14:40:58 1144

原创 【AI落地应用实战】RAGFlow + 知识图谱 + Deepseek 初步探索

人们对。

2025-03-18 16:31:45 1656 3

原创 GitHub Star 41.9k,全网疯传的《从零构建大模型》配套视频来啦!

他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,他曾获得2020年百度奖学金提名,北京市2023年优秀博士论文提名奖,2024年KAUST Rising Stars in AI等荣誉。当你亲手打造一个 LLM 时,黑盒不再是黑盒,你会真正理解大模型的工作原理,构建出属于自己的应用!只需跟着作者一步步操作,相信你一定能掌握构建 LLM 的核心技能,成功构建属于自己的大模型!从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚,还配有代码、示意图,手把手带你实现。

2025-03-17 15:50:55 933

原创 大模型从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略

大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题,这使得它们在应用中显得。由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。因此,近年来开发了多种LLM定制策略,以便针对需要专业知识的不同场景调优模型。

2025-03-17 15:47:11 758

原创 看不懂代码如何微调DeepSeek-R1蒸馏的Llama-8B模型?

(这篇帖子主要是自己留个备份。想听我随便聊只看前面就行。想复制代码就直接拉到后面。两年前,我微调过当时开源的一些大语言模型。用阿毗达磨数据。因为,大语言模型在阿毗达磨问题上的表现总是很差。后来,每出一种更强劲的模型,我总会从写作和阿毗达磨两个方面去测试它。在文学写作上,最先达到我认为勉强可用的模型是Claude 3.5 Sonnet(2024年10月版),我是从去年11月开始用sonnet写作的。deepseek R1出现之后,基本替换成R1。R1在阿毗达磨上的表现比现在一般人能用的模型都要相对好一点。

2025-03-12 11:18:29 851

原创 大模型训练到底需要什么样的数据(微调)?

上一期介绍了大模型预训练需要使用的数据–不能直接使用平时我们使用的。

2025-03-12 11:11:17 1283

原创 如果,你想找 AI大模型相关的工作,这三个建议你一定要看!

各种大厂小厂创业团队和 AI 擦边的面试难度,由难到简单,依次是:大模型算法(⭐⭐⭐⭐⭐)模型部署加速(⭐⭐⭐⭐)RAG 等相关技术(⭐⭐⭐)纯应用(⭐⭐)Prompt 工程师等其他自媒体(⭐)会简单应用就行这结果方向,B 站找几个视频看看,这里推荐用 Qwen 7B,开源的模型,一个 3060 都能跑。例如这个,如何微调 Qwen 开源模型。(如果有需要,后面我也会出相关教程)git 项目,都可以拉下来跑一跑例如这个:硬件不够,可以租服务器,现在的显卡价格已经打下来了。

2025-03-11 11:41:03 696

原创 Ollama(本地部署大模型) + LobeChat(聊天界面) = 自己的ChatGPT

本篇文章介绍了本地大模型的部署和 LobeChat 界面的部署,成功在本地部署属于自己的ChatGPT。上面也只是关键步骤的说明,遇到问题多看下官方的安装文档。本文起到抛砖引玉作用。

2025-03-11 11:39:24 1132

原创 读过唯二好的优质大模型书籍,同时得到吴恩达和Josh Starmer两位大佬的推荐和好评

全书分为了三个部分,前三章带你回顾从早期的词袋模型到现代基于深度学习的Transformer架构的演变,重点介绍了词嵌入、注意力机制等关键技术,尤其是对Transformer架构的剖析,从自注意力、前馈网络到编码器-解码器的协同工作,将模型内部错综复杂的运算逻辑拆解得条理清晰。四到九章聚焦于如何利用预训练的大模型解决实际问题,详细讲解了文本分类、聚类、主题建模、语义搜索等常见任务,并提供了丰富的代码示例,每个示例都配有详细的代码实现,从数据预处理到模型训练、部署,每一步都讲解得清晰明了。

2025-03-10 11:52:03 384

原创 DeepSeek大模型微调,家教式全流程实战指南!

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。的爆火,远不止于此。

2025-03-10 11:35:15 662

原创 RAG训练前必备:Python文本切割方法与LangChain实践

建议结合Spacy/NLTK等NLP库进行句子边界检测,配合LangChain切割器实现更智能的文本预处理。最终方案需通过实际业务场景验证,建议采用A/B测试比较不同切割策略的效果差异。

2025-03-08 11:55:22 792

原创 理解Manus运行原理-从本质出发,逐层深入,深入浅出地讲解

Manus 是一种先进的 AI 交互系统,专为增强大型语言模型(LLM)的能力而设计。它通过精心设计的架构,使 AI 能够更自然、更高效地完成复杂任务。

2025-03-08 11:53:24 981

原创 通用型AI Agent产品Manus AI:Agent应用的ChatGPT时刻

2025年3月6日凌晨,科技圈被一款名为Manus的AI产品刷屏了。Manus是中国团队Monica.im开发的全球首款通用型AI Agent产品。Monica.im成立于2023年,专注于人工智能助手的开发。Manus的推出标志着AI Agent技术向通用化、智能化方向迈出了重要一步。Manus的创始人肖弘是一名90后,毕业于华中科技大学软件工程专业。肖弘在大学毕业后创立了夜莺科技,推出了壹伴助手和微伴助手两款产品,累计服务超过200万B端用户,并助力企业触达数亿C端用户。

2025-03-08 11:50:54 902

原创 自己训练一个模型原来如此简单,AI时代知识获取太容易了

最近在看pytorch的东西,于是想问一下deepseek,让其描述完整过程,果然不失所望。Q:怎么用pytorch训练一个模型,并跑起来。A:(下面的文章是ds回答,我用的元宝满血版)使用PyTorch训练并运行一个模型的完整流程可分为以下步骤,结合多篇实践指南整理而成:验证安装:虚拟环境(可选) 推荐使用Miniconda管理环境:二、数据准备数据集加载 使用内置数据集(如MNIST)或自定义数据集:数据分批(DataLoader)三、模型定义继承nn.Module构建自

2025-03-07 17:58:26 1190

原创 Manus真的是杀手级的大模型应用吗?

Manus的爆火,本质是公众对AGI(通用人工智能)迫切期待的投射。它确实在任务执行层面实现了“从0到1”的突破,但其技术根基仍是现有模型的组合优化,而非理论级创新。

2025-03-07 17:56:08 736

原创 颠覆还是泡沫?Manus模型:一场AI革命的狂想与争议

昨夜,科技圈被一条消息引爆:一个名为“Manus”的AI模型横空出世,宣称其推理效率比GPT-4提升300%,且训练成本仅为同类模型的1/10。开发者称其为“首个实现人类级逻辑链闭环的AI”,但质疑声随之而来——这是颠覆性突破,还是资本炒作的新剧本?与过往模型不同,Manus的争议点在于其核心架构“神经-符号混合引擎”(Neuro-Symbolic Hybrid Engine)。它试图缝合深度学习的感知能力与符号AI的推理能力,但这一缝合是否真的能突破“概率幻觉”的桎梏?

2025-03-07 17:54:37 1045

原创 大模型应用开发:RAG实现与实际落地经验

RAG不是万能药,但它确实是让大语言模型在特定领域发挥威力的有效方法。关键是要理解它的局限性,并针对你的具体场景进行优化。

2025-03-05 11:39:30 758

原创 HuggingFace发布LLM超大规模实战手册 | 200页报告解读 | 4000个Scaling实验 | 激活值重计算

内容涵盖了从基础原理到实际操作的方方面面,对于想要深入了解大模型训练的人来说,这是一份极具价值的参考资料。Hugging Face联合创始人兼CEO Clement表示,这份手册的发布旨在推动AI技术的民主化,让不同规模的公司和组织都能训练自己的AI模型。这份手册的发布,正是朝着这一目标迈出的重要一步。此外,手册还介绍了DeepSpeed的ZeRO优化技术,通过分区优化器状态、梯度和参数,减少了内存冗余。同时,针对长序列和大模型的挑战,手册提出了上下文并行和环形注意力机制等创新方法,进一步优化了训练过程。

2025-03-05 11:36:45 485

原创 一文读懂什么是RAG,如何搭建多模态RAG降低大模型幻觉

当我们向 LLM 提出超出其预训练知识范围的问题时,通常 LLM 会出现幻觉。例如,如果我们向 LLM 提出涉及医学或法律等高度专业化的问题,并包含大量内部术语时,我们就有可能得到 LLM 随机生成的不准确的回答。缓解这一问题的一种方法是使用特定的数据集对 LLM 进行微调。虽然这种方法很有效,但十分耗时且高成本,需要消耗的内存也非常高。RAG 是另一种基于信息检索方法,可以缓解 LLM 幻觉。我们首先获取用户的查询,然后在我们的数据库中找到最相关的上下文,这些上下文可以帮助 LLM 生成准确的回答。

2025-03-04 17:12:53 852

原创 练完这些大模型项目,天下没有再难倒你的大模型!

而要理解场景,需要对大模型有足够的知识积累和实战经验。这就是为什么多练大模型项目如此重要。这些项目不仅收集了大模型训练实战,还有微调,分布式等训练,从6B到65B,从全量微调到高效微调,再到RLHF,涵盖得非常全面了。而理解了这点,也就知道了大模型应用的潜力有多巨大。练习项目不仅是对原理和概念的加深理解,更是对如何结合业务,业务逻辑的深度理解。LLM的应用场景不是独立的,而是和其他业务结合生成的新智能服务,这就是为什么多练习大模型项目如此重要。要落到实际的应用场景,肯定需要对应用场景本身有足够的了解。

2025-03-03 18:05:57 152

原创 大语言模型基础面试题——带你详细了解LLM大模型概念(附带10个大模型基础面试题)

什么是LLM概念呢?自从2022年12月 ChatGPT 横空面世以来,AI 领域获得了十足的关注和资本,其实AI的概念在早些年也火过一波,本轮 AI 热潮相比于之前的 AI,最大的区别在于:生成式。本文主要介绍大语言模型(Large Language Model,简称LLM)。LLM详解1.大预言模型LLM是什么?经过大量文本数据训练,能够理解和处理人类语言,并执行多种语言任务的大型模型被称为大语言模型(LLM)。例如,GPT、LLaMA、Mistral 和 BERT 都属于这一类模型。

2025-02-27 17:51:06 1116

原创 大模型是什么?一文了解大模型,AI大模型有哪些常见的分类?

随着春节期间DeepSeek的爆火,AI大模型再一次引起大家的关注。除了DeepSeek外,还有很多其他的大模型,如OpenAI、Gemini、Kimi、豆包等,它们能写文章、画图、写代码,甚至能帮你策划旅行。那这些眼花缭乱的大模型有哪些分类呢?文小言说明:私有大模型,也有叫智能体(AI Ageent)或数字分身。Copilot。

2025-02-26 11:14:25 1273

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除