
从0开始AIGC
文章平均质量分 95
Way_X
做自己喜欢的事,爱自己深爱的人。
展开
-
具身智能从0到1
一文带你了解具身智能原创 2024-11-13 16:08:58 · 1391 阅读 · 0 评论 -
[深度学习][LLM]:浮点数怎么表示,什么是混合精度训练?
在日常深度学习训练中,一般使用来表示参数并进行相关训练任务。那么浮点数在内存中是如何存储的呢?在正式开始介绍混合精度训练之前,让我们先对相关基础知识进行介绍。原创 2024-09-04 18:03:42 · 1307 阅读 · 0 评论 -
[LLM]:检索增强生成技术:RAG
检索增强生成(Retrieval-Augmented Generation, RAG)技术旨在通过信息检索系统从外部知识库中获取相关信息,为大语言模型提供时效性强、领域相关的外部知识,以减少大语言模型生成内容中的错误。原创 2024-09-02 14:41:08 · 1184 阅读 · 0 评论 -
[LLM]:大模型(Transformer)参数量分析
最近,OpenAI推出的ChatGPT展现出了卓越的性能,引发了大语言模型(Large Language Model, LLM)的研究热潮。大规模语言模型的“大”体现在两个方面:模型参数规模大,训练数据规模大。以GPT3为例,GPT3的参数量为1750亿,训练数据量达到了570GB。显存效率和计算效率。encoder-decoder(代表模型是T5)、encoder-only(代表模型是BERT,也叫Masked-Language Model,MLM)以及。原创 2024-08-31 14:48:24 · 1579 阅读 · 0 评论 -
[LLM][Prompt Engineering]:大语言模型提示工程(Prompt Engineering)
大语言模型(LLM)的微调(Fine-tune)代价较高,基于自然语言的提示(Prompt)方法已经成为了使用大语言模型解决下游任务的主要途径。而且提示的质量在很大程度上会影响大语言模型在特定任务中的表现。当前的很多工作和应用集中在如何快速应用LLM,使其适配下游任务,所采用的方法统称为Prompt Engineering,其中包括了上下文学习(In-Context Learning,ICL)和思维链提示(Chain-of-Thought,CoT)原创 2024-08-30 10:32:05 · 1351 阅读 · 0 评论 -
[LLM][Prompt Engineering]:思维链(CoT)
强大的逻辑推理是大“智能涌现”出的核心能力之一。推理:一般指根据几个已知的前提推导得出新的结论的过程,区别于理解,推理一般是一个“多步骤”的过程,推理的过程可以形成非常必要的“中间概念”,这些中间概念将辅助复杂问题的求解。思维链提示(Chain-of-Thought,CoT)作为上下文学习的一种扩展形式,旨在增强大语言模型在各类复杂推理任务上的表现。常见的推理任务包括算术推理、常识推理以及符号推理多种任务。与方法仅来构造提示不同,思维链提示进一步融合了。将原始的 $⟨ 输入,输出⟩ $ 映射关系转换为。原创 2024-08-29 17:10:41 · 1800 阅读 · 0 评论 -
[LLM][Prompt Engineering]:大语言模型上下文学习-What、How、Why?
上下文学习是使用由任务描述和(或)示例所组成的自然语言文本作为提示的提示策略。如下图所示,首先,**通过自然语言描述任务**,并**从任务数据集中选择一些样本作为示例**。其次,根据特定的模板,将这些示例按照特定顺序组合成提示内容。最后,将测试样本添加到提示后面,整体输入到大语言模型以生成输出。基于任务描述以及示例信息,LLM**无需显式的梯度更新即可识别和执行新的任务**。原创 2024-08-29 13:56:44 · 1637 阅读 · 0 评论 -
[从0开始AIGC][LLM]:Pre-Norm or Post-Norm?训练效率还是训练效果?
Pre-Norm和Post-Norm之间的对比是一个“老生常谈“的问题,目前也没有一个比较好的结论解释清楚,当前比较明确的结论是:同一设置下,Pre-Norm结构往往更加容易训练,但最终效果不如Post-Norm。Pre Norm更容易训练好理解,因为它的恒等路径更突出,但为什么它效果反而没那么好呢?原创 2024-08-27 15:21:46 · 931 阅读 · 1 评论 -
[从0开始AIGC][LLM]:LLM中Encoder-Only or Decoder-Only?为什么主流LLM是Decoder-Only?
LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only?原创 2024-08-26 17:55:26 · 2585 阅读 · 0 评论 -
[从0开始AIGC][Transformer相关]:一文总结Transformer中的位置编码
一文总结Transformer中的位置编码原创 2024-05-09 17:00:55 · 505 阅读 · 0 评论 -
[从0开始AIGC][Transformer相关]:算法的时间和空间复杂度
算法是指用来操作数据、解决程序问题的一组方法。对于同一个问题,使用不同的算法,也许最终得到的结果是一样的,但是过程中消耗的资源和时间却会有很大区别。那么如何衡量不同算法之间的优劣?主要还是从算法所占用的时间和空间两个维度去考量。原创 2024-04-09 21:48:42 · 2594 阅读 · 0 评论 -
[从0开始AIGC]: 如何区分并记住常见的几种 Normalization 算法
这里再重复一下上文的类比。如果把x∈RN×C×H×Wx∈RN×C×H×W类比为一摞书,这摞书总共有 N 本,每本有 C 页,每页有 H 行,每行 W 个字符。计算均值时BN 相当于把这些书按页码一一对应地加起来(例如:第1本书第36页,加第2本书第36页…),再除以每个页码下的字符总数:N×H×W,因此可以把 BN 看成求“平均书”的操作(注意这个“平均书”每页只有一个字)原创 2024-04-09 21:40:50 · 1018 阅读 · 0 评论