自然语言处理
文章平均质量分 96
全栈你个大西瓜
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NL2SQL模型应用实践-解决上百张表筛选问题
当面对数百张表时,高效筛选与用户问题相关的表是NL2SQL应用的关键。原创 2025-06-10 00:02:37 · 1411 阅读 · 0 评论 -
如何评估大语言模型效果
评估大模型微调后的效果是一个系统化的过程,需要结合**客观指标**和**主观评估**,并根据任务类型(分类、生成、回归等)选择合适的评估方法。原创 2025-06-07 12:15:46 · 2731 阅读 · 0 评论 -
深度学习模型Transformer核心组件—残差连接与层归一化
在Transformer模型中,残差连接(Residual Connection)和层归一化(Layer Normalization)是两个关键设计,用于提升模型的训练稳定性和性能。原创 2025-03-09 00:21:14 · 1374 阅读 · 0 评论 -
深度学习模型Transformer核心组件—位置编码
在Transformer模型中,位置编码的作用是为序列中的每个位置提供独特的位置信息,以弥补自注意力机制本身不具备的位置感知能力。原创 2025-03-09 21:27:00 · 737 阅读 · 0 评论 -
深度学习模型Transformer核心组件—前馈网络FFN
在Transformer模型中,前馈网络(Feed-Forward Network,FFN)是一个关键组件,其作用是对每个位置的表示进行非线性变换,增强模型的表达能力。原创 2025-03-09 23:13:38 · 1409 阅读 · 0 评论 -
深度学习模型Transformer 手写核心架构一(附代码)
实现 **Transformer模型** 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。原创 2025-03-12 23:31:29 · 1083 阅读 · 0 评论 -
深度学习模型Transformer 手写核心架构二(附代码)
实现 Transformer模型 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。原创 2025-03-12 23:35:19 · 1255 阅读 · 0 评论 -
大语言模型应用提示工程Prompt Engineering
提示工程(Prompt Engineering)是指通过精心设计和优化输入提示(prompt),以引导人工智能模型(如大型语言模型)生成更符合预期的输出。原创 2025-03-23 20:54:53 · 1107 阅读 · 0 评论 -
自然语言处理NLP-文本预处理
在自然语言处理(NLP)中,文本预处理是构建高效模型的关键步骤。原始文本通常包含噪声和不一致性,直接影响模型性能。通过预处理,可以提取结构化信息、减少计算复杂度,并提升模型对语义的理解能力。原创 2025-03-26 22:53:34 · 1391 阅读 · 1 评论 -
深度学习模型Transformer核心组件—自注意力机制
自注意力机制(Self-Attention),也称为内部注意力机制(Intra-Attention),是Transformer模型的核心组成部分。它允许模型在处理序列数据时,能够考虑到序列中不同位置之间的关系,从而有效地捕捉长距离依赖。原创 2025-03-08 00:15:29 · 768 阅读 · 0 评论 -
深度学习模型Transformer初步认识整体架构
Transformer 是 Google 在 2017 年提出的 **基于自注意力机制(Self-Attention)** 的深度学习模型,彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),成为自然语言处理(NLP)领域的革命性架构。其核心思想是通过 **全局依赖建模** 和 **并行计算** 高效处理序列数据,广泛应用于机器翻译、文本生成、语音识别等任务。原创 2025-03-06 23:38:35 · 1442 阅读 · 0 评论 -
深度学习架构Seq2Seq-添加并理解注意力机制(二)
使用 **“我喜欢吃鱼”** 翻译为 **“I like eating fish”** 的简单例子,逐步推演 注意力机制 的实现步骤原创 2025-03-04 11:13:31 · 981 阅读 · 0 评论 -
深度学习架构Seq2Seq-添加并理解注意力机制(一)
本文主要是分析Seq2Seq 架构本身具有的缺点,并分析针对长序列输入时,导致信息丢失这一问题,造成这个问题的原因,以及针对这一问题,通过引入注意力机制,如何来解决这一问题。原创 2025-03-03 23:46:07 · 1445 阅读 · 0 评论 -
理解Seq2Seq的工作机制与应用场景中英互译(附代码)
Seq2Seq(Sequence-to-Sequence)模型是一种用于处理序列到序列转换任务的深度学习框架,特别适用于输入和输出均为变长序列的任务,如机器翻译、文本摘要、问答系统等。Seq2Seq模型通常由两个主要组件组成:编码器(Encoder)和解码器(Decoder),它们通常是基于循环神经网络(RNN)及其变体(如LSTM或GRU)构建的。原创 2025-03-02 17:03:58 · 745 阅读 · 0 评论 -
循环神经网络RNN、LSTM以及GRU 对比(附代码)
使用实际案例:生成酒店评论,对比 RNN、LSTM 以及 GRU,在生成效果、训练时长等方面原创 2025-02-28 23:15:28 · 1482 阅读 · 0 评论 -
循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码)
循环神经网络是一种专门用于处理序列数据的神经网络。RNN能够利用数据中的时间顺序信息,因此在处理如文本、语音等序列数据时表现尤为出色。原创 2025-02-28 14:00:39 · 1663 阅读 · 0 评论 -
自然语言处理(NLP):文本向量化从文字到数字的原理
由于AI算法不能直接处理汉字或其他字符,因此必须通过特定的方法将这些字符转换为数字表示。这一过程通常涉及到两个主要步骤:**文本向量化**和**词向量生成**。原创 2025-02-25 00:13:00 · 1781 阅读 · 0 评论
分享