大模型
文章平均质量分 95
全栈你个大西瓜
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型监督微调SFT流程
在预训练阶段,模型在大规模无标注文本上学到对下一个 token 的分布表示;在下游应用中,通过微调 (fine-tuning)可使模型适应特定任务、领域或风格(如问答、代码生成、对话系统等)。原创 2025-09-11 15:26:11 · 1064 阅读 · 0 评论 -
如何评估大语言模型效果
评估大模型微调后的效果是一个系统化的过程,需要结合**客观指标**和**主观评估**,并根据任务类型(分类、生成、回归等)选择合适的评估方法。原创 2025-06-07 12:15:46 · 2731 阅读 · 0 评论 -
理解梯度下降、链式法则、梯度消失/爆炸
求导是微积分中的一个基本操作,用于计算函数在某一点上的瞬时变化率。这里列出一些常见的求导公式和规则,这些对于理解链式法则以及深度学习中的梯度计算非常重要。原创 2025-03-08 23:49:10 · 753 阅读 · 0 评论 -
深度学习模型Transformer核心组件—残差连接与层归一化
在Transformer模型中,残差连接(Residual Connection)和层归一化(Layer Normalization)是两个关键设计,用于提升模型的训练稳定性和性能。原创 2025-03-09 00:21:14 · 1374 阅读 · 0 评论 -
深度学习模型Transformer核心组件—位置编码
在Transformer模型中,位置编码的作用是为序列中的每个位置提供独特的位置信息,以弥补自注意力机制本身不具备的位置感知能力。原创 2025-03-09 21:27:00 · 737 阅读 · 0 评论 -
深度学习模型Transformer核心组件—前馈网络FFN
在Transformer模型中,前馈网络(Feed-Forward Network,FFN)是一个关键组件,其作用是对每个位置的表示进行非线性变换,增强模型的表达能力。原创 2025-03-09 23:13:38 · 1409 阅读 · 0 评论 -
深度学习模型Transformer 手写核心架构一(附代码)
实现 **Transformer模型** 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。原创 2025-03-12 23:31:29 · 1083 阅读 · 0 评论 -
深度学习模型Transformer 手写核心架构二(附代码)
实现 Transformer模型 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。原创 2025-03-12 23:35:19 · 1255 阅读 · 0 评论 -
有了大语言模型还需要 RAG 做什么
阿里云的[百炼平台]就像是一个超级智能的大厨房,专门为那些想要做出美味AI大餐的企业和个人厨师准备的。原创 2025-03-15 00:04:24 · 1408 阅读 · 0 评论 -
RAG的工作原理以及案例列举
**RAG** 是一种结合 **信息检索(Retrieval)** 和 **文本生成(Generation)** 的技术。其核心思想是:在生成答案前,先从外部知识库中检索相关数据作为上下文,再基于这些信息生成更准确、更可靠的回答。 简单来说,RAG让AI像“查阅资料后再回答问题”的人类专家一样工作。原创 2025-03-16 22:37:07 · 1248 阅读 · 0 评论 -
文本数据处理——最佳文本切分策略
在自然语言处理(NLP)中,数据切分(Chunking)是处理长文本的关键步骤,直接影响模型性能(如检索增强生成RAG、文本嵌入、机器阅读理解)。原创 2025-03-16 23:31:44 · 4062 阅读 · 0 评论 -
有了大模型为何还需要Agent智能体
Agent(智能体)是一种能**感知环境、自主决策、执行动作**的智能实体,当它与大语言模型(如通义千问QWen、GPT)结合时,形成一种**“增强型AI系统”**原创 2025-03-17 23:05:32 · 1378 阅读 · 0 评论 -
大语言模型应用提示工程Prompt Engineering
提示工程(Prompt Engineering)是指通过精心设计和优化输入提示(prompt),以引导人工智能模型(如大型语言模型)生成更符合预期的输出。原创 2025-03-23 20:54:53 · 1107 阅读 · 0 评论 -
自然语言处理NLP-文本预处理
在自然语言处理(NLP)中,文本预处理是构建高效模型的关键步骤。原始文本通常包含噪声和不一致性,直接影响模型性能。通过预处理,可以提取结构化信息、减少计算复杂度,并提升模型对语义的理解能力。原创 2025-03-26 22:53:34 · 1391 阅读 · 1 评论 -
大模型全量微调和LoRA微调的区别与选择
模型微调(Fine-tuning)是指在已有预训练模型的基础上,针对特定任务或数据集进行进一步训练的过程。通过微调,可以在相对较小的数据集上取得较好的性能表现,同时减少从头开始训练模型所需的时间和计算资源。原创 2025-03-27 23:45:52 · 1502 阅读 · 0 评论 -
从召回、粗排到精排:揭秘推荐系统如何精准匹配用户需求
在推荐系统或搜索系统中,“**粗排**”和“**精排**”是排序(Ranking)流程中的两个关键阶段,主要用于从海量候选集中筛选出最符合用户需求的条目。两者的核心区别在于**计算效率与精度的权衡**。原创 2025-03-29 21:15:12 · 2393 阅读 · 0 评论 -
Dify 快速构建和部署基于LLM的应用程序
如果你是第一次接触Dify,可以先创建一个简单的聊天助手,初步感觉一下,Dify在构建聊天问答类应用的过程。比如下面这个聊天助手,是基于知识库的,直接编辑一段提示词,然后在选择一个你自己的PDF 或者 word 文档,就可以实现一个简单的基于知识库的聊天助手。提示词不会写,影响不大,你写一点,可以使用自动生成提示词这个功能,帮你自动完善提示词。原创 2025-05-05 23:19:47 · 1312 阅读 · 0 评论 -
金融问答系统:如何用大语言模型打造高精度合规的金融知识引擎
本文探讨了如何开发一款基于大语言模型(LLM)的金融问答系统,以确保其输出的准确性和可信度。系统面临的主要挑战包括处理高频更新的基金交易数据和大量非结构化的金融文档,以及减少模型“幻觉”现象。原创 2025-05-16 23:00:17 · 1468 阅读 · 1 评论 -
什么是知识蒸馏?如何做模型蒸馏?结合案例说明
知识蒸馏是一种模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,使其保持高性能的同时降低计算成本。原创 2025-05-30 10:36:14 · 1678 阅读 · 0 评论 -
MCP和 AI agent 有什么区别和联系
MCP是一种开源通信协议,旨在为大型语言模型(LLM)与外部数据源、工具或服务之间建立**标准化、安全且灵活的双向连接**。它类似于“AI 的 USB-C 接口”,通过统一的协议规范,简化了 LLM 与数据库、API、文件系统、硬件设备等资源的集成。原创 2025-05-21 23:21:43 · 1787 阅读 · 0 评论 -
深度学习模型Transformer核心组件—自注意力机制
自注意力机制(Self-Attention),也称为内部注意力机制(Intra-Attention),是Transformer模型的核心组成部分。它允许模型在处理序列数据时,能够考虑到序列中不同位置之间的关系,从而有效地捕捉长距离依赖。原创 2025-03-08 00:15:29 · 768 阅读 · 0 评论 -
深度学习模型Transformer初步认识整体架构
Transformer 是 Google 在 2017 年提出的 **基于自注意力机制(Self-Attention)** 的深度学习模型,彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),成为自然语言处理(NLP)领域的革命性架构。其核心思想是通过 **全局依赖建模** 和 **并行计算** 高效处理序列数据,广泛应用于机器翻译、文本生成、语音识别等任务。原创 2025-03-06 23:38:35 · 1442 阅读 · 0 评论 -
深度学习架构Seq2Seq-添加并理解注意力机制(二)
使用 **“我喜欢吃鱼”** 翻译为 **“I like eating fish”** 的简单例子,逐步推演 注意力机制 的实现步骤原创 2025-03-04 11:13:31 · 981 阅读 · 0 评论 -
深度学习架构Seq2Seq-添加并理解注意力机制(一)
本文主要是分析Seq2Seq 架构本身具有的缺点,并分析针对长序列输入时,导致信息丢失这一问题,造成这个问题的原因,以及针对这一问题,通过引入注意力机制,如何来解决这一问题。原创 2025-03-03 23:46:07 · 1445 阅读 · 0 评论 -
理解Seq2Seq的工作机制与应用场景中英互译(附代码)
Seq2Seq(Sequence-to-Sequence)模型是一种用于处理序列到序列转换任务的深度学习框架,特别适用于输入和输出均为变长序列的任务,如机器翻译、文本摘要、问答系统等。Seq2Seq模型通常由两个主要组件组成:编码器(Encoder)和解码器(Decoder),它们通常是基于循环神经网络(RNN)及其变体(如LSTM或GRU)构建的。原创 2025-03-02 17:03:58 · 745 阅读 · 0 评论 -
循环神经网络RNN、LSTM以及GRU 对比(附代码)
使用实际案例:生成酒店评论,对比 RNN、LSTM 以及 GRU,在生成效果、训练时长等方面原创 2025-02-28 23:15:28 · 1482 阅读 · 0 评论 -
循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码)
循环神经网络是一种专门用于处理序列数据的神经网络。RNN能够利用数据中的时间顺序信息,因此在处理如文本、语音等序列数据时表现尤为出色。原创 2025-02-28 14:00:39 · 1663 阅读 · 0 评论 -
自然语言处理(NLP):文本向量化从文字到数字的原理
由于AI算法不能直接处理汉字或其他字符,因此必须通过特定的方法将这些字符转换为数字表示。这一过程通常涉及到两个主要步骤:**文本向量化**和**词向量生成**。原创 2025-02-25 00:13:00 · 1780 阅读 · 0 评论
分享