
大模型
文章平均质量分 72
大模型基础,应用相关记录
fan_fan_feng
keep study
展开
-
大模型基础——从零实现一个Transformer(4)
上一篇文章已经把Encoder模块的单个EncodeBlock已经实现了本文我们继续了解Transformer中剩下的其他组件.原创 2024-06-15 00:08:35 · 482 阅读 · 0 评论 -
大模型基础——从零实现一个Transformer(2)
将原来n_head分割乘Nx n_sub_head.对于每个头i,都有它自己不同的key,query和value矩阵: 𝑊𝑖𝐾,𝑊𝑖𝑄,𝑊𝑖𝑉。在多头注意力中,key和query的维度是 𝑑𝑘 ,value嵌入的维度是 𝑑𝑣 (其中key,query和value的维度可以不同,Transformer里面一般设置的是相同的),这样每个头i,权重 𝑊𝑖𝑄∈𝑅𝑑×𝑑𝑘,𝑊𝑖𝐾∈𝑅𝑑×𝑑𝑘,𝑊𝑖𝑉∈𝑅𝑑×𝑑𝑣 ,然后与压缩到X中的输入相乘,得到 𝑄∈𝑅𝑁×𝑑𝑘,𝐾∈𝑅𝑁×𝑑𝑘,𝑉∈𝑅𝑁×𝑑𝑣 .原创 2024-06-10 23:02:53 · 1212 阅读 · 0 评论 -
小白学大模型——Qwen2理论篇
SWA指的是Sliding Window Attention,是一种注意力模式,用于处理长序列输入的问题。这里的mixture可能指的是这两种注意力机制的结合使用。在自然语言处理和编程语言处理中,分词器用于将文本分解成更小的单位(如词、字符或其他符号),这是理解和处理文本的基础步骤。:Grouped-query attention,它是一种插值方法,介于多查询和多头注意力之间,可以在保持接近多头注意力的质量的同时,达到与多查询注意力相当的速度。: 不多说,最主流的transformer架构,不变。原创 2024-05-16 23:41:40 · 5409 阅读 · 1 评论 -
datawhale动手学大模型应用开发-第六章-LLM 应用精选案例
为提高回答的准确性和可靠性,项目特别集成了RAG技术,该技术通过在生成回答前检索大量数据中的相关信息,有效提升了信息检索的精度并减少了误导性信息的产生。这一结合了检索和生成的方法确保了智能助手在信息提供上的准确性和权威性,使其成为用户处理海量数据时的有力工具。:利用检索到的文档作为上下文(Context),结合问题,生成一个prompt提交给大型语言模型(LLM),由其生成回答(Answer)。:将用户的查询向量化,并在知识库文档的向量索引中检索与查询最相似的top k个文档。原创 2024-04-28 23:26:10 · 577 阅读 · 0 评论 -
datawhale动手学大模型应用开发-第五章-系统评估与优化
我们可以通过构造思维链,将 Prompt 构造成一系列步骤来尽量减少其能力限制,例如,我们可以构造一个两步的思维链,要求模型在第二步做出反思,以尽可能消除大模型的幻觉问题。由于大模型存在幻觉问题,有时我们会怀疑模型回答并非源于已有知识库内容,这对一些需要保证真实性的场景来说尤为重要,我们可以要求模型在生成回答时注明知识来源,这样可以避免模型杜撰并不存在于给定资料的知识,同时,也可以提高我们对模型生成答案的可信度。:评估系统回答中出现的幻觉内容的比例,即回答与检索到的知识片段之间的一致性。原创 2024-04-25 23:46:05 · 962 阅读 · 0 评论 -
datawhale动手学大模型应用开发-第四章-构建RAG应用
这里以重写一个支持 智普api接口的LLM 组件# 继承自 langchain.llms.base.LLM# 默认选用 ERNIE-Bot-turbo 模型,即目前一般所说的百度文心大模型# 温度系数# API_Key'''构造 GLM 模型请求参数 messages请求参数:prompt: 对应的用户提示词'''# 首先定义一个返回默认参数的方法@property"""获取调用Ennie API的默认参数。原创 2024-04-24 23:29:44 · 510 阅读 · 0 评论 -
datawhale动手学大模型应用开发-第二章-使用 LLM API 开发应用
要求模型对长篇文章或文本进行摘要。原创 2024-04-20 15:15:08 · 1177 阅读 · 0 评论 -
大模型——理论基础——常用的Norm
这样的顺序对于训练更深的网络可能更稳定,因为归一化的输入可以帮助缓解训练过程中的梯度消失和梯度爆炸问题。比于LN,可以发现,不论是分母的方差和分子部分,都取消了均值计算,经作者在各种场景中实验发现,减少约 7%∼64% 的计算时间。通过上面三组实验,作者认为 Post-LN 的不稳定性部分来自于梯度消失以及初始化的时候,更新太大,陷入了局部最优,跑不出去了。都是根据模型的Encoder(N)和Decoder(M)层数计算出来的,通过如下方案,作者把模型的层数提升到了1000+。原创 2024-02-01 16:30:52 · 8760 阅读 · 0 评论 -
datawhale 大模型学习 第九\十章-大模型有害性
在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。而在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显。尝试了两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。虚假信息指的是不论意图如何,被误导性地呈现为真实的错误信息。原创 2024-01-28 20:23:36 · 438 阅读 · 0 评论 -
大模型 RAG 面试篇
大模型 RAG面试题 收集一原创 2024-01-19 17:16:09 · 2486 阅读 · 0 评论 -
datawhale 大模型理论基础 引言
语言模型其实是一个概率模型,给每一个句子列表计算一个概率值:例如:自回归语言模型(Autoregressive language models)将一个句子的概率的表示成多个条件概率的相乘。原创 2024-01-15 19:35:20 · 492 阅读 · 0 评论 -
datawhale 第二章-大模型的能力
GPT-3 作为一个语言模型,被训练来预测下一个词。并未明确针对特定任务进行训练。在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后GPT-3可以在某一些任务上面表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。原创 2024-01-16 20:28:03 · 902 阅读 · 0 评论