
NLP
文章平均质量分 92
诸葛思颖
这个作者很懒,什么都没留下…
展开
-
阅读论文笔记《Efficient Estimation of Word Representations in Vector Space》
这篇文章写于2013年,对理解 word2vec 的发展历程挺有帮助。本文仅适用于 Word2Vect 的复盘。原创 2025-02-15 14:06:55 · 1378 阅读 · 0 评论 -
Transformer 结构
这个部分类似于我们最开始讲的端到端模型中的注意力机制,它是为了帮助 Decoder 端每一步的生成都可以关注和整合每个 Encoder 端每个位置的信息。和 Encoder block 一样,这样的 Decoder block 也可以进行堆叠,如上图我右方标记了“Nx”。在原论文中,Decoder block 也是一共堆叠了 6 层。原创 2024-06-27 14:38:23 · 1552 阅读 · 0 评论 -
BPE (Byte-Pair Encoding) Tokenization
我们其实也可以直接将每个单词作为一个单元来进行后续的训练,但是这样当我们处理新单词的时候就没有办法给出一个合适的表示,可能许多没有见过的所有的字都公用同一个表示。将文本数据集中的所有实例中的选定字符对替换为新创建的词元,从 step 2 进行重复,直到达到预定的词汇表大小或无法进一步合并字符对。然而,作为真人的我们第一次看到生词的时候,并不是对它一无所知的,我们可以通过生词的组成来进行猜测意思。最终生成的词汇表包含了所有 token,包括原始的字符和合并后的 token。如果我们要处理一个没有见过的单词。原创 2024-06-19 13:45:18 · 1168 阅读 · 0 评论 -
注意力机制
给定一个查询向量(query vector)和一组值向量(value vectors),注意力机制根据query计算value的加权和。计算相关性给定一个查询向量(query vector)和一组值向量(value vectors),首先计算query与每个value之间的相关性。通常可以使用点积、内积、余弦相似度等方法来度量相关性。计算结果可以表示为一个得分向量,其中每个得分表示query与对应value的相关性。计算注意力权重通过对得分向量进行归一化,可以得到value。原创 2024-06-16 11:10:41 · 725 阅读 · 0 评论 -
Seq2seq、编码器&解码器神经网络
Seq2seq(Sequence to Sequence)的作用是将一种序列转换为另一种序列,比如将英文句子翻译为中文句子,或者将一篇文章进行概括。一种解决 Seq2seq 问题的方法是编码器-解码器模型。下面我们以英语句子翻译为西班牙句子为例来进行介绍。原创 2024-06-10 17:09:20 · 1234 阅读 · 0 评论 -
神经网络基础
接下来详细讲一下梯度的计算。对于一个具有 1 个输出和。原创 2024-06-03 14:33:31 · 3422 阅读 · 0 评论 -
大模型基础
从GPT-3 (1750亿个参数) 中,我们可以看到大规模预训练语言模型中的丰富知识。之所以选择预训练语言模型,是因为之所以选择预训练语言模型在 GLUE 上的结果优于人类的表现,这反映了预训练语言模型的语言理解能力。基于以上的特点,使用预训练的语言模型现在是各种 NLP 任务的标准,与语言模型相关的研究也在 2018 年迅速发展了起来。在GPT-3中,许多复杂的任务,如编写代码和下棋,可以转化为基于预先训练的语言模型的动作序列生成。第二步:然后,我们可以使用特定任务的训练数据对预先训练的语言模型进行。原创 2024-05-05 11:45:38 · 445 阅读 · 0 评论 -
自然语言处理基础
自然语言处理(Natural Language Processing,简称NLP)是计算机科学与人工智能领域的一个重要研究方向,目的是让计算机能够理解、解析、生成和处理人类的自然语言。自然语言处理有着非常重要的意义,其一,我们认为人类语言是人类智能一个非常重要的体现;其二,NLP 是人工智能能够通过图灵测试的一个非常重要的工具。其中图灵测试(最开始的名字是 imitation game)是判断机器是否智能的一个非常重要的手段。原创 2024-05-03 18:56:09 · 1313 阅读 · 1 评论