
大模型/智能体
文章平均质量分 93
大模型
小胡说技书
这个作者很懒,什么都没留下…
展开
-
linux中CosyVoice声音克隆安装教程——TTS文本转语音(数字人组件)
CosyVoice 作为一款先进的语音合成解决方案,其设计理念在于提供高效、稳定且灵活的语音生成工具。本教程将从环境配置、依赖安装、模型下载到服务部署全流程进行详细介绍,旨在为用户提供前瞻性的技术指导,同时兼顾细节解析和专业名词解释,便于技术人员快速上手。前置安装:CUDA 、Anaconda、git lfs。原创 2025-04-07 21:28:20 · 681 阅读 · 0 评论 -
企业级知识库建设:自建与开源产品集成的全景解析 —— 产品经理、CTO 与 CDO 的深度对话
本文将结合技术细节和工具实践,对自建方案与开源产品集成两大路径进行深入对比和解析,并以大表格形式直观呈现当前主流产品的特点,供企业在产品选择时参考。:在对核心竞争力要求较高的领域自主研发,同时在标准化模块上充分利用开源产品的成熟解决方案,既保证定制化需求,又能缩短上线周期,降低整体研发与运维成本。以下从具体实施流程、技术难点、数据治理及长期发展等方面进行深入对比分析。下表汇总了当前较为成熟的几套产品及相关开源项目,从产品功能模块、优势、劣势、适用场景及技术要求等多维度进行对比,直观展示各产品的特点与局限。原创 2025-03-29 22:35:27 · 1057 阅读 · 0 评论 -
知识库中嵌入模型(Embedding Models)与重排序模型(Re-ranking Models)推荐工具与库
知识库作为信息管理和知识发现的核心平台,已经广泛应用于搜索引擎、问答系统、智能客服、推荐系统等领域。然而,传统的基于关键词匹配的检索方法往往难以捕捉深层次的语义关联,导致检索效果不佳。为了解决这一问题,嵌入模型和重排序模型应运而生。原创 2025-03-28 21:37:31 · 1021 阅读 · 0 评论 -
Xinference大模型配置介绍并通过git-lfs、hf-mirror安装
Xinference大模型配置介绍并通过git-lfs、hf-mirror安装原创 2025-03-15 17:55:01 · 1350 阅读 · 0 评论 -
linux(ubuntu)中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python)
linux(ubuntu)中Conda中CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python)原创 2025-03-14 18:47:11 · 1067 阅读 · 0 评论 -
大模型有哪些?类别全景解析及对比:从预训练到多模态、通用表示模型多任务及强化学习、领域专用、知识库嵌入与检索优化、语音与视频处理、强化学习与自监督大模型
本文旨在为技术决策者和开发者提供一份系统化、细分且前瞻性的大模型种类全景图,详细阐述预训练模型的基本原理及各类大模型的细分体系,涵盖生成式预训练模型、通用表示模型、多任务通用模型、领域专用大模型、多模态大模型、知识库嵌入与检索优化模型、语音与视频处理模型,以及强化学习与自监督大模型。通过深入解析每一类模型的技术原理、优势特点、典型应用和代表工具,助力企业在实际开发过程中科学选型、精细落地,实现资源最优配置和商业价值最大化。原创 2025-03-13 08:22:40 · 1395 阅读 · 0 评论 -
9.大模型开发demo——中文文本生成模型实践
在当今自然语言处理领域,文本生成模型已经广泛应用于对话系统、文章撰写、内容创作等场景。本文将以从零开始开发一个中文文本生成模型为例,详细讲解如何构建数据预处理流程、设计词汇表、构造 Transformer 模型、训练模型以及实现文本生成。整个案例使用简化的中文数据,仅作教学演示,但同时也介绍了实际开发中可扩展的方向。原创 2025-03-10 20:22:14 · 1112 阅读 · 0 评论 -
8.大模型微调学习案例:基于 Hugging Face、8位量化与 LoRA 适配器的方案
本博客详细介绍了如何利用 Hugging Face Transformers、Datasets、PEFT 及 BitsAndBytes 等先进工具,实现大模型的高效微调。文章从数据预处理、训练样本构建、文本分词,到加载预训练模型、8 位量化技术应用,再结合 LoRA 适配器进行参数高效微调,最后通过自定义 Trainer 类完成训练与模型保存,全流程代码详解贯穿始终。文中众多参数配置以“能跑就行”为目标,仅供教学演示,旨在帮助读者快速理解和掌握大模型微调关键技术。原创 2025-03-08 23:26:38 · 1035 阅读 · 0 评论 -
0.大模型开发知识点需求综述
已更新完到二章、自然语言处理(NLP)基础的细化版(1-7),其中还是省略了很多的基础公式细节,想来如果博客写的太详细,自己暂无精力,且理论太多,因此把大纲放在这里,读者自行学习即可。从下篇博客(这个类型)开始,将以写实际为主。原创 2025-03-07 23:07:15 · 695 阅读 · 0 评论 -
7.自然语言处理(NLP)理论基础——大模型微调的基石
下面是一个关于“工具介绍”的表格,涵盖了主流预训练模型与微调平台、文本预处理与解析工具以及数据集与 Benchmark 平台,供您参考。分类工具/平台功能与特点适用场景推荐/备注预训练模型与微调平台提供大量预训练模型(BERT、GPT、RoBERTa、T5 等);API 简单易用;支持多任务微调;拥有丰富社区资源快速构建原型、微调任务、少样本学习预训练模型与微调平台高级 API 便于模型构建、训练与部署;原创 2025-03-06 22:19:43 · 1094 阅读 · 0 评论 -
6.过拟合处理:确保模型泛化能力的实践指南——大模型开发深度学习理论基础
模型复杂度过高模型参数过多或网络层数太深,容易导致对训练数据的噪声进行拟合。训练数据不足数据样本量较少时,模型容易学习到数据中的随机误差。训练时间过长过度训练可能使模型逐步记忆训练数据的细节,而忽略了数据的普遍模式。过拟合是深度学习中常见的问题,但通过合理的策略可以有效缓解。Dropout:通过随机丢弃部分神经元,减少模型对局部特征的依赖,从而提高泛化能力。数据增强:通过对训练数据进行变换扩充数据集,帮助模型学习到更多样化的特征。L1/L2 正则化。原创 2025-03-05 21:38:33 · 1187 阅读 · 0 评论 -
5.训练策略:优化深度学习训练过程的实践指南——大模型开发深度学习理论基础
定义:Early Stopping 是一种监控验证集表现,当连续若干个训练周期(Epoch)内验证性能不再改善时,提前终止训练的策略。作用防止模型在训练数据上过拟合,确保模型在未见数据上有良好泛化能力。节省计算资源,避免不必要的训练周期浪费时间。定义:Warmup 策略是在训练初期逐步增加学习率的做法,避免模型刚开始训练时因过高的学习率导致梯度不稳定或损失震荡。作用稳定训练:使模型在初始阶段以较小的步幅学习,逐渐适应训练数据分布。防止梯度问题。原创 2025-03-05 21:27:54 · 1261 阅读 · 0 评论 -
4.归一化技术:深度网络中的关键优化手段——大模型开发深度学习理论基础
归一化技术通过对每一层或每个样本中的数据分布进行标准化,使其均值和方差处于一定范围内。这样做的目的是减少内部协变量偏移(Internal Covariate Shift),使得每层输入具有更稳定的分布,进而提高训练速度和模型稳定性。主要作用缓解梯度问题:通过标准化激活值,减少梯度消失和梯度爆炸问题。加速收敛:统一数据分布,使优化器能够更快地找到最优解。提升泛化能力:归一化操作在一定程度上具有正则化作用,能降低过拟合风险。归一化技术是深度学习网络中必备的优化手段。原创 2025-03-05 15:13:40 · 1078 阅读 · 0 评论 -
3.激活函数:神经网络中的非线性驱动器——大模型开发深度学习理论基础
定义激活函数是神经网络中每个神经元输出信号的非线性变换函数。简单来说,它将线性组合的输入映射为非线性的输出,使得网络能够处理复杂的非线性问题。激活函数作为神经网络中的非线性驱动器,其选择对模型的表达能力、训练稳定性以及收敛速度具有深远影响。本文从实际开发角度出发,详细介绍了 ReLU、GELU、Swish 等常见激活函数的特点与适用场景,并通过代码示例展示了如何在 PyTorch 中使用这些激活函数及其可视化方法。原创 2025-03-05 15:12:41 · 929 阅读 · 0 评论 -
2.反向传播机制简述——大模型开发深度学习理论基础
反向传播是一种通过“自顶向下”计算梯度的算法,用于调整神经网络中各层参数。它的基本思想是根据网络输出与真实标签之间的误差,通过逐层传递梯度,指导每一层权重的更新。作用帮助网络“学习”:在每次训练迭代中,网络利用反向传播获得各参数的梯度信息,从而逐步减少误差。自动调整参数:与自动微分(Autograd)结合后,开发者无需手动推导复杂的导数,大大降低了开发难度。反向传播是利用链式法则逐层计算梯度,指导神经网络参数更新的关键算法。原创 2025-03-04 21:39:05 · 1150 阅读 · 0 评论 -
小白向:如何使用dify官方市场“ECharts图表生成”工具插件——dify入门案例
dify小白使用echarts组件教程原创 2025-03-03 21:06:49 · 6687 阅读 · 20 评论 -
1.大模型开发数学基础回顾及代码示例——构建大模型的理论基石
线性代数、概率与统计、优化算法、计算图与自动微分。原创 2025-03-03 19:33:32 · 839 阅读 · 0 评论 -
极简入门,本地部署dify低代码平台构建AI Agent大模型全流程(使用教程、微案例、配置详解、架构图解析)
极简入门,本地部署dify低代码平台构建AI Agent大模型全流程(使用教程、微案例、配置详解、架构图解析)原创 2025-02-22 19:04:42 · 4339 阅读 · 5 评论 -
LangChain:AI大模型开发与分布式系统设计
LLM 的基本概念和工作原理大语言模型(Large Language Models,简称 LLM)是一类通过深度学习技术训练的自然语言处理模型,它们通过海量的文本数据进行训练,以学习语言的结构、语法以及语义信息。LLM 的核心在于其大规模的参数和训练数据,这使得它们能够执行多种任务,如文本生成、翻译、问答等。其工作原理基于架构,这是一种处理序列数据(如文本)的神经网络架构,能够高效捕捉上下文信息,理解并生成自然语言。深度学习与大数据的结合LLM 的成功得益于深度学习与大数据的结合。原创 2025-02-21 21:11:08 · 927 阅读 · 0 评论 -
读书笔记:要点提炼《基于大模型的RAG应用开发与优化——构建企业级LLM应用》(严灿平)
本书解析企业级RAG应用开发与优化,涵盖大模型基础、RAG原理与架构、开发环境、模型、Prompt、嵌入管理、数据加载分割与向量索引;构建检索、响应生成引擎,并探讨高级查询转换、语义路由、多模态检索、代理开发及评估优化;对比C-RAG、Self-RAG、RAPTOR新范式,为企业智能决策提供全景方案。原创 2025-02-20 22:28:10 · 1143 阅读 · 0 评论 -
智能体(AI Agent、Deepseek、硅基流动)落地实践Demo——借助大模型生成报表,推动AI赋能企业决策
本文以一个智能体 Demo 为例,展示了如何利用硅基流动 DeepSeek API 生成 SQL 查询、执行数据库统计,并进一步自动生成详细的营销报告。硅基流动提供的免费模型服务为企业和开发者降低了 AI 应用门槛,使得智能体系统在各行业落地成为可能。希望这篇博客文章能为您在智能体及大模型应用方面提供新的思路,并激发更多开发者探索 AI 技术的无限可能!原创 2025-02-19 21:36:52 · 951 阅读 · 1 评论 -
智能体系统(AI Agent System)是什么?——从概念解析到企业数字化转型的全景落地及投资视角
本文系统阐述了智能体系统的定义、架构设计、落地实施路径以及未来发展趋势,从企业高层、销售、技术交付和专业投资人等多个角度进行深度解析。文章利用5W2H、波特五力、SWOT等分析方法,探讨智能体在自动化运维、实时决策、风险管控和业务模式创新中的关键作用,并结合实际案例说明如何在中国市场实现本地化落地。特别针对投资人,文章提出了从核心技术、商业模式、团队执行、财务健康、战略合作及政策环境等维度考察智能体公司的综合评估体系,为投资决策提供科学、前瞻的参考依据。原创 2025-02-18 21:12:08 · 1115 阅读 · 0 评论