
NVIDIA GPU和大语言模型开发教程
文章平均质量分 84
NVIDIA GPU、Isaac、Diffusion Models、Score-based Generative Model、DDIM、CLIPDraw开发教程
优惠券已抵扣
余额抵扣
还需支付
¥89.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
知识大胖
这个作者很懒,什么都没留下…
展开
-
Orpheus 3B — 像人类一样说话的 TTS — 本地安装和运行 使用 Orpheus 3B 生成 AI 语音!了解如何在本地安装、运行和生成逼真的声音 - 无需付费 API
Orpheus 3B是一种基于 Transformer 的文本转语音模型,经过微调,可生成富有表现力且保真度高的语音。与需要付费 API 的商业 TTS 模型不同,Orpheus 3B 是完全开源的,非常适合希望尝试最先进语音合成的研究人员、开发者和业余爱好者。主要特点:30 亿个参数:用于自然语音合成的大规模模型。针对表现力进行微调:更自然的语调和发音。开源:可在Hugging Face和GitHub上获取。本地运行:无需基于云的 API 或互联网访问。原创 2025-03-27 10:27:23 · 408 阅读 · 0 评论 -
DeepSeek V3–0324 与 DeepSeek-V3 对比 DeepSeek v3–0324 有多好?
DeepSeek V3-0324 是一项重大升级,在推理、编码和结构化问题解决方面表现出色,甚至在关键领域超越了 Claude 3.7。如果您需要效率和低成本的自动化,原始的 DeepSeek V3 仍然是一个不错的选择。一位用户刚刚给出了一些基准测试数据,比较了 DeepSeek V3–0324 和 Claude 3.7 Sonnet,结果发现该模型很容易就胜过了 Claude 3.7。对于大多数用户来说,DeepSeek V3–0324 是更好的选择,特别是在需要编码或数字推理的情况下。原创 2025-03-26 17:10:02 · 36 阅读 · 0 评论 -
使用 Qwen-2 和 Qwen-2-VL 的多模式 AI
Q2-VL 体现了多模态 AI 的变革潜力。通过弥合文本、视觉和视频数据之间的差距,它为可访问性和效率树立了新的标杆。无论您是开发人员、教育工作者还是医疗保健专业人士,Q2-VL 等工具都可以让您以以前无法想象的方式与数据交互。随着多模态 AI 的不断发展,Q2-VL 等模型将塑造我们分析和解释信息的未来。准备好探索各种可能性了吗?开始尝试 Q2-VL,解锁 AI 创新的下一个前沿。原创 2025-03-26 15:50:04 · 22 阅读 · 0 评论 -
OpenAI Deep Research 的开源本地部署解决方案:Ollama Deep Research
Ollama Deep Research 是一款本地网络研究和报告撰写助手,可自动搜索、总结和提炼信息。它使用本地托管的大型语言模型 (LLM)来:✅ 根据您的主题生成搜索查询✅ 从网络上检索相关来源✅ 将信息汇总为结构化的 markdown 报告✅ 通过迭代研究周期识别知识差距Ollama 非常适合研究人员、学生和专业人士,它通过将所有数据保存在本地来确保隐私,同时提供高质量的研究摘要。原创 2025-03-26 15:31:10 · 380 阅读 · 0 评论 -
为什么模型上下文协议 (MCP) 应该成为你的下一个 明星项目:一次有趣且面向未来的冒险
正在寻找一个既令人兴奋、实用又面向未来的业余项目?向模型上下文协议 (MCP)问好吧——这是 Anthropic 团队打造的一款开源瑰宝,它正在寻求一些 Rust 驱动的热爱。如果您是一名对人工智能、系统集成感兴趣的开发人员,或者只是想用 Rust 的惊人速度和安全性构建一些很酷的东西,那么 MCP 可能就是您的下一个痴迷对象。让我们深入了解 MCP 是什么、它为什么很棒,以及为什么用 Rust 破解它可能是您自第一次发现 Cargo Run 以来最有趣的事情。原创 2025-03-26 15:16:45 · 16 阅读 · 0 评论 -
LLM 与 LCM:你未曾料到的人工智能革命
LLM 和 LCM 之间的较量并不在于谁的写作水平更高,而在于我们是否希望 AI 做得更多或更少。LLM 在 AI 革命中发挥了至关重要的作用,而 LCM 则是下一个进步。它们能够更好地理解语言,因为它们会考虑上下文。对于需要准确性、简单性和透彻分析的公司来说,转向 LCM 并不是升级,而是一次翻天覆地的变化。人工智能的未来不是写作,而是产生深思熟虑、简洁有效的想法。大家系好安全带,因为人工智能创意创造将持续存在,并正在改变我们的沟通方式。原创 2025-03-26 15:14:38 · 13 阅读 · 0 评论 -
利用 AI 在几分钟内创建强大研究报告的 4 步框架 使用 AI 快速创建高级研究和数据可视化的分步工作流程和提示
在你进行深入研究之后,Perplexity 需要一段时间来收集所有报告并创建摘要。很酷的是,它会告诉你它所采取的所有步骤和它的“思考”过程。收到报告后,请执行两个步骤:首先,将答案导出为PDF。其次,转到“来源”选项卡,浏览列表并下载最相关的 PDF 格式。具体来说,请查看出版日期和执行摘要。例如,麦肯锡研究是在 2017 年进行的。这还不错,但我建议使用更新的研究。原创 2025-03-26 15:09:38 · 13 阅读 · 0 评论 -
使用 Blender MCP 实现 3D 创作转型:我将 Blender 连接到 Claude Desktop 的体验
从本质上讲,Blender MCP 在 Blender 和 Claude Desktop 之间架起了一座桥梁,让您可以使用自然语言来控制 Blender。您无需浏览复杂的菜单并记住键盘快捷键,只需描述要创建或修改的内容即可。该系统由一个 Blender 插件组成,该插件可在 Blender 中创建一个套接字服务器,以及一个实现模型上下文协议的 Python 服务器。双向通信是这款软件最强大的功能。原创 2025-03-24 20:21:01 · 208 阅读 · 0 评论 -
探索强大的 AI 工具:OLLAMA 和 LM Studio 的替代品 虽然 OLLAMA 和 LM Studio 是流行的 AI 工具,但还有几种功能强大的替代方案,可为开发人员提供独特的功能
如果您正在寻找类似于Ollama和LM Studio 的工具来在本地运行大型语言模型 (LLM),那么有几种替代方案,它们的重点、界面和复杂性各不相同。下面,我列出了符合本地 LLM 执行、模型管理或开发人员友好集成目标的工具。每种工具都有自己的优势,具体取决于您优先考虑 GUI、CLI、API 支持还是自定义。原创 2025-03-16 10:52:15 · 168 阅读 · 0 评论 -
量化对训练成本的重大影响:DeepSeek R1 案例研究
量化是一种降低模型参数、激活和梯度中使用的数值精度的技术。例如,我们可以使用 16 位浮点 (FP16) 或 8 位整数 (INT8),而不是以 32 位浮点格式 (FP32) 表示权重。这种减少会缩小内存占用和计算要求,直接影响训练和运行 LLM 的成本。这对于像 DeepSeek R1 这样具有 6710 亿个参数的模型来说尤其重要,因为内存和计算成本会随着模型大小而增长。原创 2025-03-16 10:47:37 · 50 阅读 · 0 评论 -
构建类似 DeepSeek-R1 的推理模型,通过结合 UnslothAI 的高效微调、Llama 3.1–8B 的基础、GSM8K 的推理数据和 GRPO 的奖励驱动优化,我们构建了一个可与 Dee
为了引导模型更好地推理,我们设计了一个奖励函数,对三个方面进行评分:正确性(最终答案是否匹配?)、清晰度(步骤是否合乎逻辑?)和完整性(是否有多个步骤?奖励范围从 0 到 1,从最高 3 分开始标准化。\d+\.?原创 2025-03-16 10:33:52 · 36 阅读 · 0 评论 -
DeepSeek 基本概念,了解 FP8 和混合精度训练
FP8 或 8 位浮点表示是一种紧凑的数字格式,旨在平衡深度学习工作负载中的精度和范围。与更常见的 FP32(32 位浮点)或 FP16(16 位浮点)不同,FP8 仅使用 8 位来表示数字,因此内存效率极高。但是,这种位数的减少是有代价的:与高位浮点相比,FP8 的精度较低,范围较窄。为了解决这个问题,FP8 有两种版本,每种版本都针对不同的需求量身定制E4M3:结构:1个符号位,4个指数位,3个尾数位。范围:可以存储从 -448 到 +448 的值,加上 NaN(非数字)。原创 2025-03-15 22:23:28 · 192 阅读 · 0 评论 -
使用 LoRA 对 DeepSeek 进行微调以进行数学校正, 为什么要对 DeepSeek 进行微调?
由于大型语言模型 (LLM) 的大小和计算要求,对其进行微调可能具有挑战性。但是,借助 LoRA(低秩自适应)和 4 位量化等技术,我们可以有效地调整 DeepSeek-Math-7B 等模型以完成特定任务,例如纠正数学模因。本教程将介绍使用 Hugging Face 的transformers、peft和datasets库对 DeepSeek 进行微调的过程。原创 2025-03-15 22:18:29 · 403 阅读 · 0 评论 -
掌握 CUDA 内核开发:综合指南
开发高性能 CUDA 内核需要深入了解 GPU 架构、高效内存管理以及仔细的代码调优,以充分利用硬件。本指南提供了编写正确且高性能的 CUDA 内核的分步方法。原创 2025-03-14 08:25:53 · 43 阅读 · 0 评论 -
Gemma 3:27B 多模 LLM 比真正的大模型更好,旨在在手机和工作站等设备上高效运行
Gemma 3 是 Google 最新的开源 AI 模型,于 2025 年 3 月 12 日发布,旨在在手机和工作站等设备上高效运行。它的参数大小从 10 亿到 270 亿(准确地说:1B、4B、12B、27B),其中 27B 版本尤其可以与更大的模型竞争,例如 LLama 和 DeepSeek 的 400B 或 600B 参数。原创 2025-03-13 16:59:41 · 272 阅读 · 0 评论 -
AI 基础概念之2025年新词, Agentic RAR是什么?这是人工智能思维的未来吗?RAR利用DeepSeek构成了系统的核心推理能力
人工智能的世界在不断发展,就在你以为自己已经理解了检索增强生成 (RAG) 时,一种突破性的新方法出现了。由著名的牛津大学的研究人员开发的代理推理对代理推理 (RAR)有望重新定义人工智能系统如何解决复杂问题。忘记基本的信息检索吧——RAR 是关于深度、代理驱动的推理,它可以开启人工智能能力的新时代。从本质上讲,RAR 是传统 RAG 系统的升级版。原创 2025-03-10 08:36:23 · 55 阅读 · 0 评论 -
Manus的技术基础:如何为 AI 构建 MCP 服务器
MCP 就像是 AI 的通用插头。想象一下在 USB-C 出现之前,充电器不兼容的烦恼。MCP 为 AI 解决了类似的问题,为 AI 客户端(如 Claude、Cursor 等)创建了一种标准方式来连接各种工具和数据源。可以将其视为一个标准化端口,让您的 AI 可以轻松访问实时股票价格、电子邮件收件箱甚至复杂的 API 等内容,而无需复杂的一次性设置。想象一下,给你的人工智能一把瑞士军刀。原创 2025-03-10 08:26:20 · 331 阅读 · 0 评论 -
从桌面到云再到桌面——Project DIGITS 如何转变 AI 工作流程 人工智能正在经历一个完整的循环——从桌面到云端,现在又回到了强大的本地处理。
人工智能 (AI) 工作流程的发展遵循了一条迷人的轨迹。最初,由于硬件限制,AI 处理仅限于桌面计算。然后,云计算的兴起为 AI 开发人员提供了大量计算资源,使复杂模型的训练和部署速度更快。然而,对云基础设施的依赖带来了延迟、安全问题和高运营成本等挑战。现在,在NVIDIA 的 Project DIGITS的支持下,AI 重新专注于本地化处理,从而实现了完整的循环。这种转变不仅仅是技术上的进步,它代表了我们在处理人工智能效率、可访问性和可持续性方面所采取的根本性变化。原创 2025-03-09 19:40:25 · 52 阅读 · 0 评论 -
在 Ubuntu 22.04 上为 Nvidia GPU 安装 CUDA 12.4
在本指南中,我们将系统地介绍在配备 Nvidia GPU 的 Ubuntu 22.04 系统上安装 CUDA 12.4 的过程。CUDA 或计算统一设备架构是 Nvidia 开发的强大的并行计算平台,用于提高计算密集型应用程序的性能。本文还将介绍 Nvidia 驱动程序、CUDA 工具包、用于深度学习的 cuDNN 和用于构建神经网络的 PyTorch 等基本软件组件的安装。通过遵循本指南,读者将获得为 GPU 加速计算设置强大环境的实践经验。原创 2025-03-09 11:50:13 · 503 阅读 · 0 评论 -
Nvidia GPU——H100 和 A100
A100 和 H100 都是张量核心 GPU。这些是有助于高效执行矩阵乘法的处理单元。在深度学习中,张量是指存储多维数据的数据类型。与执行逻辑和算术运算的微处理器不同,深度学习需要矩阵乘法。因此,张量核心比普通 CPU 甚至 CUDA 核心更受欢迎。两个 4×4 矩阵相乘需要进行 64 次乘法和 48 次加法。卷积和乘法是新核心的亮点所在。随着矩阵(张量)的大小和维度的增加,计算复杂性也会成倍增加。机器学习、深度学习和光线追踪都是涉及大量乘法的任务,因此这些 GPU 值得花钱购买。原创 2025-03-09 11:42:29 · 37 阅读 · 0 评论 -
利用 NLP 的强大功能为 RAG 和 GraphRAG 应用程序构建混合图
什么是 GraphRAG?从您的角度来看,GraphRAG 意味着什么?如果您可以仅使用查询开关将标准 RAG 和 GraphRAG 作为一个组合包,会怎么样?事实上,对于 GraphRAG 是什么,目前还没有一个具体的、普遍接受的定义——至少目前还没有。根据我的经验、文献监测和与许多人的交谈,我估计(向 Steven D. Levitt 致歉,我知道这不是呈现统计数据的正确方式):90%的人将 GraphRAG 与微软构建图表(或其变体)并在其上进行搜索的方法联系起来。原创 2025-03-09 11:34:19 · 30 阅读 · 0 评论 -
什么是 MCP 服务器?为大家讲解新的 AI 趋势
MCP代表模型上下文协议,这是最近推出的用于连接 AI 模型和外界的开放标准。MCP 的核心是定义了 AI 系统(如大型语言模型)与外部数据源和服务连接和通信的方式。MCP 服务器是该连接的一端,本质上是一种服务或连接器,以标准化方式为 AI 模型提供对某些资源、工具或数据的访问权限。另一端是MCP 主机,通常是使用这些服务器的 AI 应用程序或助手(例如,Anthropic 的 Claude 桌面应用程序)。原创 2025-03-09 11:17:57 · 72 阅读 · 0 评论 -
AI MCP教程之 什么是 MCP?利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具
模型上下文协议 (MCP) 是一个框架,使 LLM 能够与外部工具、数据源或系统进行交互。启用 MCP 的 LLM 不仅可以响应文本提示,还可以检索实时数据、触发脚本,甚至动态控制应用程序。通过将 MCP 与本地运行的 LLM 集成,您可以解锁一个强大的 AI 工具,它不仅可以生成内容,还可以对其采取行动,从而使自动化和上下文感知辅助更加无缝。原创 2025-03-09 11:15:54 · 216 阅读 · 0 评论 -
使用 Crew AI 构建多智能体 RAG 管道
Crew AI是一个框架,可将多个专业代理和任务编排到统一的工作流程中。Crew AI 并不依赖单一的整体系统,而是将职责划分给代理——每个代理都设计有特定的角色(例如,路由、检索、评分)。这种模块化方法具有以下几个优点:灵活性:无需重新设计整个系统即可轻松更换或更新单个代理。专业化:每个代理可以专注于特定的任务,例如评估检索相关性或过滤幻觉反应。透明度:详细的日志记录和基于任务的架构使您能够追踪管道中的每个决策。原创 2025-03-09 11:08:45 · 263 阅读 · 0 评论 -
五大 MCP 服务器,通过提示自动执行日常任务和工作流程
自从 Anthropic 将模型上下文协议 (MCP)引入Claude 以来,它彻底改变了我们自动执行重复任务的方式。从文件管理到社交媒体工作流程,MCP 服务器可让您将Claude连接到GitHub、Slack和Google Maps等强大的工具。这些集成可帮助您节省时间、简化工作流程并专注于最重要的事情。在本文中,我将通过实用提示和示例分享可用于提高生产力的5 大 MCP 服务器。无论您是想管理文件、实现团队沟通自动化,还是简化基于位置的任务,这里都能满足每个人的需求。原创 2025-03-09 10:55:10 · 144 阅读 · 0 评论 -
使用 SmolAgents 库构建文本到 SQL 代理
设置很简单。我将使用一个假的 SQLite 数据库,提供一些员工数据,然后创建一个在数据库上运行 SQL 查询以回复用户查询的 AI 代理。import os"""))",employees我要创建的 AI 代理将是一个工具调用代理。我需要定义一个自定义工具来对数据库执行 SQL 查询。我的自定义工具应该继承自 smolagents 库的 Tool 类。SQL 执行器工具实际采取的操作非常简单:连接到数据库,执行 SQL 查询,检索结果,获取异常(如果有),最后关闭与数据库的连接。"""原创 2025-03-08 21:18:02 · 69 阅读 · 0 评论 -
QwQ 32B 与 Deepseek R1 671B — 选择最佳
Qwen是阿里云发布和维护的一系列 LLM。QwQ是 Qwen 系列中具有推理能力的模型。前段时间,团队发布了该模型的预览版,现在,他们已经完整发布了 QwQ-32B 模型。它在 Huggingface 和 Ollama 模型存储库中可用。原创 2025-03-08 21:11:56 · 240 阅读 · 0 评论 -
解锁DeepSeek AI 超能力:使用 Ollama 将您自己的数据提供给 LLM!
该项目的主要部分包括:ASP.NET Core Web API(.NET 9)——公开 API 以获取未来 5 天的天气预报React.js 仪表板——显示天气数据,将 API 数据提供给 ollama,聊天界面与数据交互。用户可以在聊天窗口提出与天气预报相关的问题,Ollama 将根据 API 数据生成答复。原创 2025-03-08 19:11:29 · 199 阅读 · 0 评论 -
使用 GRPO 对 DeepSeek-7B 进行微调:综合指南
对大型语言模型 (LLM) 进行微调对于使其适应特定任务至关重要。该领域的最新进展之一是通用强化预训练优化 (GRPO),它使用强化学习原理增强了微调。在本博客中,我们将探讨 DeepSeek-7B 上的 GRPO 微调,并提供分步实施指南。《AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL》 权重4,本地类、AnythingLLM类、Ollama类《Nvidia 系列 之 在 Ubuntu 22.04 中为 LLM 设置 Nvidi原创 2025-03-08 19:07:05 · 203 阅读 · 0 评论 -
将 DeepSeek AI 集成到 React Native 应用程序中:React Native 中生成式 AI 的完整指南
React Native 让开发人员能够使用 JavaScript 和 React 构建原生应用,彻底改变了移动应用开发。自 2015 年 Facebook(现为 Meta)推出以来,它已成为最受欢迎的跨平台移动开发框架之一,为 iOS 和 Android 平台上的数千款应用提供支持。去年,我们见证了生成式人工智能开发领域前所未有的竞争。原创 2025-03-08 18:50:57 · 76 阅读 · 0 评论 -
DeepSeek R1 如何改变推理语言模型
您是否曾想过 AI 模型如何学习分解数学问题或逐步解释代码?过去几年,许多公司都建立了大型语言模型 (LLM),可以创建文本、翻译语言、编写代码等。但 AI 中出现了一种新趋势:推理语言模型 (RLM)。这些模型旨在解释其推理,而不仅仅是给出简短的答案。该领域最大的进展之一是DeepSeek R1,这是一个开源推理模型,可与目前最先进的一些 AI 系统(如 OpenAI 的“o1”等)相媲美。在这篇文章中,我将带您了解 DeepSeek R1 的训练基础知识、它的重要性以及它对 AI 未来的意义。原创 2025-03-02 08:24:08 · 59 阅读 · 0 评论 -
探索 DeepSeek 的 R1 训练过程 开源情报与专有模型相当
当今世界上最强大的 AI 模型之一已开源。根据指标和用户交互,它与 OpenAI 的 ChatGPT 一样好,甚至更好。作者们非常慷慨地发布了一篇论文,概述了他们如何训练这样的模型。DeepSeek-R1 目前在科技界是一件大事,所以我想分解一下我对他们论文中见解的理解。原创 2025-03-02 07:51:25 · 46 阅读 · 0 评论 -
重新学习编程以应对即将到来的量子海啸 抛弃旧的编程思维方式
量子时代尚未到来——它已经到来。对于经验丰富的程序员来说,这意味着放弃确定性逻辑,拥抱概率、叠加和纠缠。你的解决问题和抽象能力仍然很重要,但现在你将用它们来设计电路和操纵量子位而不是比特。对于新手来说,这是一个全新的开始。深入探索,不要想太多陌生的东西——这都是游戏的一部分。原创 2025-03-02 07:43:38 · 43 阅读 · 0 评论 -
使用 Arduino 进行量子力学实验 如何仅使用 LED 和电阻器进行光电效应实验
您是否想过如何进行量子力学实验?您是否认为这需要复杂的设备?在这里,您可以了解如何进行光电效应实验以及如何使用现成的材料测量普朗克常数。原创 2025-03-02 07:36:14 · 372 阅读 · 0 评论 -
在 苹果mac电脑 上运行本地运行 DeepSeek
安装ollama和deepseek。原创 2025-02-26 14:11:08 · 62 阅读 · 0 评论 -
DeepSeek 开源周第三天:探索 DeepGEMM
DeepSeek 在开源周第三天发布了 DeepGEMM,这不仅仅是一个技术里程碑,更是迈向更具协作性、更高效、更强大的 AI 未来的一步。无论您是开发人员、研究人员还是技术爱好者,DeepGEMM 都可以提供工具来优化 MoE 模型的矩阵运算,这要归功于其 FP8 性能、JIT 编译和开源特性。原创 2025-02-26 14:05:21 · 112 阅读 · 0 评论 -
DeepSeek 开源:DeepSeek Native 稀疏注意力机制:LLM 的高级注意力机制
作者介绍了 NSA,这是一种原生可训练的稀疏注意力机制,旨在解决高效长上下文建模的挑战。NSA采用动态分层稀疏策略,将粗粒度标记压缩与细粒度标记选择相结合,同时保留全局上下文感知和局部精度。NSA 的主要创新包括:结合智能压缩和选择该模型使用捷径,将相似的信息分组(如总结文本块)并有选择地关注重要部分(如挑选关键句子)。这减少了模型需要处理的数据量,而不会丢失关键上下文。硬件友好型设计注意力机制经过优化,可以与现代计算机硬件(如 GPU)完美配合。原创 2025-02-26 08:53:04 · 65 阅读 · 0 评论 -
DeepSeek 开源周第一天: DeepSeek FlashMLA针对 Hopper GPU 高度优化的内核,使 LLM 速度更快,如何使用DeepSeek FlashMLA?
内核是一个小型的优化程序,它在 GPU 上运行,用于执行矩阵乘法或注意力计算等特定任务。它是 AI 中并行处理的支柱,可使复杂的操作更快、更高效。Hopper 是 NVIDIA 最新的 GPU 架构,专为 AI 和高性能计算而设计。它具有先进的 Tensor Core、高内存带宽以及对 FP8 等新数据类型的支持,使其成为大规模 AI 模型的理想选择。FlashMLA 是专为Hopper GPU(如 NVIDIA 的 H100 系列)设计的高度优化的解码内核。原创 2025-02-26 08:34:57 · 63 阅读 · 0 评论 -
DeepSeek 开源周第二天:什么是 DeepSeek DeepEP?DeepEP就像是机器学习系统中数据的智能流量管理器,确保所有专家都能按时获得数据并能无延迟地协同工作,从而使系统更高效、更快速
在生成式 AI 中,混合专家 (MoE)是一种使用多个专门的“专家”子模型来处理不同任务的模型架构。MoE 模型不会使用单个大型模型来处理所有任务,而是根据输入有选择地激活一组专家,通过仅使用最相关的专家来完成每项任务,从而提高效率。这种方法有助于在保持计算效率的同时扩大模型规模。专家并行 (EP)是指专家混合 (MoE) 模型中使用的一种技术,其中多个专家(专业子模型)并行工作以处理任务的不同部分。原创 2025-02-26 08:31:32 · 48 阅读 · 0 评论 -
在 MacBook 上训练自己的 LLM:使用 MLX 进行微调指南 在 Apple Silicon Mac 上对自定义数据集进行 LLM 微调的指南
微调代表了模型开发的一种战略方法,我们采用预先训练的 LLM(通过对大量数据集的训练,已经具备了广泛的语言理解能力),并在较小的专业数据集上对其进行进一步训练。该模型在保留其基础知识的同时,还在您的目标领域发展专业知识。对于某些自定义任务,微调可以比仅使用 LLM 模型产生更好的结果。无论您是处理患者医疗记录以生成治疗摘要、分析历史诊断模式,还是想要构建一个能够理解特定医学术语和医院协议的模型以生成标准化报告,您都可以考虑对 LLM 模型进行微调。原创 2025-02-26 08:17:02 · 131 阅读 · 0 评论