
语言模型基础
文章平均质量分 93
qzhqbb
这个作者很懒,什么都没留下…
展开
-
检索增强生成
20分钟讲明白检索增强(内附基于LangChain搭建简单RAG系统简单教程)原创 2024-11-10 21:32:54 · 935 阅读 · 0 评论 -
大模型之模型编辑
让所有人都可以全面理解模型编辑简介-->经典方法-->附加参数法-->定位编辑法-->应用原创 2024-11-08 21:50:41 · 1575 阅读 · 0 评论 -
参数高效微调
15分钟带你明白什么是参数高效微调原创 2024-11-08 15:35:21 · 987 阅读 · 0 评论 -
Prompt 工程
从0开始,一篇速成学会prompt原创 2024-11-07 20:55:00 · 2401 阅读 · 0 评论 -
基于 Encoder-Decoder 架构的大语言模型
为了弥补 Encoder-only 架构在文本生成任务上的短板,Encoder-Decoder 架构在其基础上引入了一个解码器(Decoder),并采用交叉注意力机制来实现编码器与解码器之间的有效交互。其中分词器和输出文本只在训练阶段存在,而实现“自回归”的红色虚线只在推理阶段存在。具体来说,解码器包含了输出编码、特征解码以及输出生成三个部分。与编码器中的输入编码结构相同,包含分词、向量化以及添加位置编码三个过程,将原始输入文本转换化为带有位置信息的向量序列。原创 2024-11-06 10:32:03 · 1381 阅读 · 0 评论 -
基于 Encoder-only 架构的大语言模型
Encoder-only 架构凭借着其独特的双向编码模型在自然语言处理任务中表现出色,尤其是在各类需要深入理解输入文本的任务中。Encoder-only 架构仅选取了 Transformer 中的编码器(Encoder)部分,用于接收输入文本并生成与上下文相关的特征。具体来说,Encoder-only 架构包含三个部分,分别是输入编码部分,特征编码部分以及任务处理部分,具体的模型结构如图。输入编码部分包含分词、向量化以及添加位置编码三个过程。原创 2024-11-05 20:11:17 · 1346 阅读 · 0 评论 -
语言模型的评测
在内在评测中,测试文本通常由与预训练中所用的文本独立同分布的文本构成,。最为常用的内部评测指标是困惑度(Perplexity)困惑度是衡量语言模型对测试文本预测能力的一个指标,它反映了模型对测试数据的“困惑”程度。困惑度越低,意味着模型对测试文本的预测越准确,语言模型的性能越好。原创 2024-11-05 16:45:25 · 962 阅读 · 0 评论 -
语言模型的采样方法
语言模型的输出为一个向量,该向量的每一维代表着词典中对应词的概率。在采用自回归范式的文本生成任务中,语言模型将依次生成一组向量并将其解码为文本。将这组向量解码为文本的过程被成为语言模型解码。原创 2024-11-04 22:10:19 · 971 阅读 · 0 评论 -
基于 Transformer 的语言模型
Transformer 是一类基于注意力机制(Attention)的模块化构建的神经网络结构。给定一个序列,Transformer 将一定数量的历史状态和当前状态同时输入,然后进行加权相加。对历史状态和当前状态进行“通盘考虑”,然后对未来状态进行预测。原创 2024-11-04 20:40:50 · 1170 阅读 · 0 评论 -
基于 RNN 的语言模型
循环神经网络(Recurrent Neural Network, RNN)是一类网络连接中包含环路的神经网络的总称。给定一个序列,RNN 的环路用于将历史状态叠加到当前状态上。沿着时间维度,历史状态被循环累积,并作为预测未来状态的依据。RNN 可以基于历史规律,对未来进行预测。原创 2024-11-04 15:32:51 · 1795 阅读 · 0 评论 -
基于统计方法的语言模型
基于统计方法的语言模型主要是指利用统计学原理和方法来构建的语言模型,这类模型通过分析和学习大量语料库中的语言数据,来预测词、短语或句子出现的概率。原创 2024-11-03 22:29:28 · 1263 阅读 · 0 评论