自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大模型训练

执着于走在时代最前沿的大模型开发工程师

  • 博客(468)
  • 收藏
  • 关注

原创 在Docker上部署Ollama+AnythingLLM完成本地LLM Agent部署

在当今快速发展的人工智能领域,本地部署大型语言模型(LLM)Agent正逐渐成为企业和研究者关注的焦点。本地部署不仅能够提供更高的数据安全性和隐私保护,还能减少对外部服务的依赖,提高响应速度和系统稳定性。本文将介绍如何通过Docker容器技术,结合Ollama和AnythingLLM两款工具,完成本地LLM Agent的部署和应用。Ollama是一个开源的大型语言模型服务工具,它为用户在本地环境中快速部署和运行大型模型提供了便利。

2025-02-28 15:49:47 923

原创 使用Docker安装Anythingllm,并基于deepseek构建自己的本地知识库问答大模型,可局域网内多用户访问、离线运行

运行之后如下图,会启动一个容器,用一大串字母表示,该字母是Docker 为该容器分配一个唯一的 ID,这个 ID 主要用于在 Docker 系统中管理容器。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。想要学习一门新技术,你最先应该开始看的就是学习路线图,而下方这张超详细的学习路线图,按照这个路线进行学习,学完成为一名。光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

2025-02-27 18:02:45 1391

原创 【一文搞定】DeepSeek-llm-7B-Chat微调教程_deepseek 微调实战源码全流程

高性价比:DeepSeek-V2模型以其史无前例的性价比著称,推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。架构创新:DeepSeek对模型架构进行了全方位创新,提出崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,独创的DeepSeekMoESparse结构,也把计算量降到极致。

2025-02-27 17:59:23 992

原创 【最新指南】_langchain 本地知识库-使用LangChain搭建本地知识库系统:一站式解决方案

RAG是的缩写,翻译为中文的意思就检索增强,以基于最新,最准确的数据建立LLM的语料知识库。LLMLangChain是一个用于开发由语言模型驱动的应用程序的框架。具有上下文感知能力:将语言模型与上下文源(提示说明、少量镜头示例、基于其响应的内容等)联系起来。

2025-02-27 17:52:50 814

原创 【AI开源项目】LangChain (一)3分钟让你知道什么是LangChain,以及LangChain的部署配置全流程

LangChain 是一个为各种大型语言模型应用提供通用接口的框架,旨在简化应用程序的开发流程。通过 LangChain,开发者可以轻松构建如图所示的 RAG(Retrieval-Augmented Generation)应用。在这里插入图片描述。

2025-02-26 20:11:37 1071

原创 基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答_langchain 本地知识库

一月份以来,随着Deepseek的火爆,直接带火了整个LLM这个方向,然LLM毕竟更多是基于过去的经验数据预训练而来,没法获取最新的知识,以及各企业私有的知识为了获取最新的知识,ChatGPT plus版集成了bing搜索的功能,有的模型则会调用一个定位于 “链接各种AI模型、工具”的langchain的bing功能为了处理企业私有的知识,要么基于开源模型微调,要么更可以基于langchain里集成的向量数据库和LLM****搭建本地知识库问答此处的_向_量数据库的独特性在哪呢?

2025-02-26 20:08:54 978

原创 深度探索 DeepSeek 微调:LoRA 与全参数微调实战指南

DeepSeek 作为强大的大模型,提供了优质的基础能力,但在某些特定任务上,直接使用预训练模型可能无法满足需求。本篇文章将介绍LoRA全参数微调等微调策略,并提供详细的代码示例,帮助开发者高效定制 DeepSeek 以适应特定任务。LoRA 适用于计算资源有限的场景,通过低秩适配微调模型关键层,减少训练开销。全参数微调适用于大规模训练任务,但计算资源消耗大,适合计算能力强的环境。结合 DeepSpeed、FSDP 可优化全参数微调的训练效率。

2025-02-26 19:46:30 2082

原创 如何训练大模型?收藏这一篇就够了,从技术原理到实战训练!

大模型(Large Models)的训练是近年来人工智能领域的核心技术之一,尤其是在自然语言处理、计算机视觉等任务中,如 GPT、BERT 等模型的成功背后,离不开复杂的训练过程。本文将为你介绍大模型是如何训练的,包括数据准备、模型架构、训练方法和硬件支持等方面。大模型的训练需要大量的数据,因为它们需要从海量信息中学习模式和规律。

2025-02-26 19:41:41 899

原创 DeepSeek大模型微调实战,如何将开源模型打造成行业垂直模型!

DeepSeek是由。

2025-02-26 19:38:09 770

原创 DeepSeek大模型微调实战(理论篇)

大模型高效微调

2025-02-12 21:43:27 640

原创 Python 医疗领域大模型微调,LLMs在医疗领域的lora微调,医疗领域问答大模型微调训练,大模型在医疗领域的SFT,基于glm-4-9b-chat在医疗领域的指令微调(一)

一、项目介绍本项目基于THUDM/glm-4-9b-chat模型进行垂域的微调。主要设计医疗领域问答对的lora微调。下面是半精度微调,下一遍是4bit微调,占用资源更小二、代码实战1.半精度微调导入依赖包加载数据数据预处理创建模型实例配置文件配置训练参数,创建训练器,进行训练我是非常希望可以把知识和技术分享给大家,但苦于传播途径有限,很多互联网行业的朋友无法获得正确的籽料得到学习的提升,所以也是整理了一份AI大模型籽料包括:AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、

2025-02-12 21:35:59 847

原创 大模型框架汇总:大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

如何学习AI大模型?

2025-02-12 21:27:49 1494

原创 敲重点!最全大模型训练合集2025年最新版!

敲重点!最全大模型训练合集2025年最新版!

2025-01-02 22:36:53 1542

原创 大模型是如何训练的?这六个关键步骤要记牢!

大模型是如何训练的?这六个关键步骤要记牢!

2025-01-02 22:33:53 819

原创 ​“大模型 + 多个小模型” 的概述及应用案例

​“大模型 + 多个小模型” 的概述及应用案例

2024-12-10 19:19:36 1360

原创 AI时代,产品经理开始“复仇式”崛起

AI时代,产品经理开始“复仇式”崛起

2024-12-10 19:13:55 716

原创 企业怎么样才能用上大语言模型(LLM)?

企业怎么样才能用上大语言模型(LLM)?

2024-12-09 22:35:53 661

原创 LLM大模型基础知识学习总结2024年最新版!

LLM大模型基础知识学习总结2024年最新版!

2024-12-09 22:34:23 880

原创 大语言模型预训练数据集及清洗框架介绍,详细版后续会更新~

大语言模型预训练数据集及清洗框架介绍,详细版后续会更新~

2024-12-05 18:30:32 1538

原创 NLP中语言模型预训练方法2024年最新版,想要训练大模型看完这一篇就够了!

NLP中语言模型预训练方法2024年最新版,想要训练大模型看完这一篇就够了!

2024-12-05 18:18:48 861

原创 一文彻底搞懂大模型,手把手带你过完LLM的构建流程

一文彻底搞懂大模型,手把手带你过完LLM的构建流程

2024-12-04 17:11:35 1011

原创 大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

2024-12-04 16:57:13 1214

原创 1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

2024-12-03 18:57:05 1008

原创 从零开始训练大模型全面指南:预训练、指令微调、奖励模型、强化学习

从零开始训练大模型全面指南:预训练、指令微调、奖励模型、强化学习

2024-12-03 18:54:01 4971

原创 ​国内AI大模型,优缺点分析,研究使用后我得出了以下结论

​国内AI大模型,优缺点分析,研究使用后我得出了以下结论

2024-10-30 22:15:04 1298

原创 一文详解大模型推理:从基础知识到 vLLM,手把手保姆级教程2024年最新版

一文详解大模型推理:从基础知识到 vLLM,手把手保姆级教程2024年最新版

2024-10-30 22:11:06 1080

原创 大模型落地,要追求极致的务实主义

大模型落地,要追求极致的务实主义

2024-10-28 19:24:18 804 1

原创 大模型开源还是闭源?表面上是发展路线之争,实则是……

大模型开源还是闭源?表面上是发展路线之争,实则是……

2024-10-28 19:20:47 1211

原创 大模型时代,Java程序员不应该被落下!

大模型时代,Java程序员不应该被落下!

2024-10-10 19:11:53 537 1

原创 大模型时代,新手和程序员如何转型入局AI行业?

在当今大模型迅猛发展的环境下,人工智能的应用越来越广泛。然而,这些大模型的背后隐藏着更为深厚的基础技术——传统机器学习和神经网络。理解这些基础技术,不仅能够帮助我更好地使用大模型,还能为我提供创新和解决实际问题的能力。因此,在这个AI迅猛发展的时代,掌握传统机器学习和神经网络显得尤为重要。

2024-10-10 19:00:37 683

原创 大模型微调:7种大模型微调的保姆级教程,想学大模型,收藏这一篇就够了

大模型微调:7种大模型微调的保姆级教程,想学大模型,收藏这一篇就够了

2024-10-09 18:29:36 1470

原创 香港科技大学校董会主席、美国国家工程院外籍院士沈向洋:我对大模型时代的十个思考

香港科技大学校董会主席、美国国家工程院外籍院士沈向洋:我对大模型时代的十个思考

2024-10-09 18:24:56 710

原创 学会区分大模型——大模型的分类,让你更清晰的认识大模型

学会区分大模型——大模型的分类,让你更清晰的认识大模型

2024-09-18 17:33:01 680

原创 国内AI大模型发展报告2024年最新版新鲜出炉!结果你绝对想不到...

国内AI大模型发展报告2024年最新版新鲜出炉!结果你绝对想不到...

2024-09-18 17:29:35 958

原创 2024最新最全【大模型学习路线规划】零基础入门到精通,这就是你入门大模型最好的教程!

2024最新最全【大模型学习路线规划】零基础入门到精通,这就是你入门大模型最好的教程!

2024-09-11 18:00:00 318

原创 新手必看:从零起步,一步步教你如何训练自己的大型模型——完整教程大揭秘!

新手必看:从零起步,一步步教你如何训练自己的大型模型——完整教程大揭秘!

2024-09-11 17:43:43 983

原创 AI大模型知识点大梳理(内附大模型学习资料2024年最新版)

AI大模型知识点大梳理(内附大模型学习资料2024年最新版)

2024-09-05 18:12:56 1021

原创 如何学习训练大模型——100条建议(附详细说明)

如何学习训练大模型——100条建议(附详细说明)

2024-09-05 18:10:22 994

原创 大模型提示词进阶,零样本提示, 一次样本提示和 少样本提示以及思维链(Chain of Thought, Cot)

大模型提示词进阶,零样本提示, 一次样本提示和 少样本提示以及思维链(Chain of Thought, Cot)

2024-09-04 17:06:56 815

原创 大模型学习路线:从新手到专家的全面指南,从零基础到精通,非常详细收藏我这一篇就够了

大模型学习路线:从新手到专家的全面指南,从零基础到精通,非常详细收藏我这一篇就够了

2024-09-04 17:03:08 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除