
大模型原理
文章平均质量分 92
做个天秤座的程序猿
喜欢研究langchain和langchain-chatchat
展开
-
增量预训练和微调的区别
增量预训练是一种在现有预训练模型的基础上,通过引入新的数据或任务来进一步训练模型的方法。这种方法的主要目的是在不从头开始训练模型的情况下,利用新数据或特定领域的数据增强模型的能力和性能。选择基础模型:选择一个已经预训练的模型,例如BERT、GPT等。准备新数据:收集和整理新的训练数据,通常是与现有任务相关的数据,或是针对特定领域的数据。继续训练:使用新的数据在基础模型上进行进一步的训练。这一步可以包括全量训练(对所有模型参数进行调整)或部分训练(只调整部分参数,如顶层的几层)。评估与调整。原创 2024-07-17 21:44:17 · 3712 阅读 · 0 评论 -
NLP任务中三个概念标记、样本映射和偏移映射三个概念的浅析
在自然语言处理(NLP)任务中,特别是问答任务中,标记、样本映射和偏移映射是用于处理长文本和标记位置的重要概念。我们一起来学习这三个概念。原创 2024-07-12 01:00:00 · 1637 阅读 · 0 评论 -
一起来了解深度学习中的“梯度”
在深度学习的相关文章中一直提到两个词——梯度和梯度下降。在网上搜索这些词汇时,初学者常常会看到一堆公式和各种复杂的定义,可能会让人打退堂鼓。然而,理解梯度的概念对于掌握深度学习至关重要。今天,我们将用一个通俗易懂的比喻来解释深度学习中的梯度。通过这种方式,希望能帮助大家更轻松地理解这个重要概念,从而更加自信地迈向深度学习的世界。在深度学习中,梯度可以看作是一个指引我们如何调整模型参数(如权重和偏置)以最小化误差的指南针。梯度告诉我们,在当前参数值的情况下,误差朝哪个方向增大或减小,以及应该调整参数多少。原创 2024-07-11 01:00:00 · 3700 阅读 · 1 评论 -
大模型一些概念的理解 - 线性层、前向传播、后向传播
最近提问里有问到一些名词:线性层、前向传播、后向传播。这些实际是神经网络的一些基础概念,我们可以先通过通俗易懂的方式简单了解下它们线性层(Linear Layer)是神经网络中的一种基本层,也称为全连接层(Fully Connected Layer)。y = Wx + b,其中W是权重矩阵,x是输入,b是偏置项,y是输出。线性层的主要任务是将输入的数据通过权重和偏置进行线性变换,从而生成输出。前向传播(Forward Propagation)是神经网络计算输出的过程。原创 2024-07-10 00:45:00 · 1699 阅读 · 0 评论 -
大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope
之前学习的过程中我们的模型应用可以跑起来了,那么在这个过程中我们是按官方的demo来学习编写的,有些地方只会用,但是并没有深入理解。现在我们一起来学习一些大数据的基础概念,Checkpoint、PyTorch、 Transformers、ModelScopeTensorFlow 是由 Google Brain 团队开发的开源深度学习框架。自 2015 年发布以来,它已经成为机器学习和深度学习社区中广泛使用的工具之一。TensorFlow 适用于从研究到生产的广泛应用场景,并支持多种编程语言。原创 2024-06-23 09:25:59 · 4724 阅读 · 3 评论 -
一起学习大模型 - 容易混淆的Token Id和向量嵌入
看下面这段例子# 数据向量化# 向量化检索# 结果梳理。原创 2024-06-11 09:00:00 · 1545 阅读 · 0 评论 -
一起学习大模型 - embed model和 llm model 常见的搭配和考虑因素
昨天和别人讨论大模型应用的时候,发现很多人存在词向量混用的情况,就是随意选embed model搭配 llm model 来用。实际上会导致很多的问题,出来的结果肯定也是不理想的。选择和搭配合适的词向量嵌入模型和大语言模型需要考虑它们的兼容性、具体任务需求以及具体实现细节。通过合理的搭配和微调,可以实现更好的性能和效果。原创 2024-05-31 10:57:34 · 3270 阅读 · 0 评论 -
一起学习大模型 - 大模型的交互工具 prompt简介与运用
按我们前面一节langchain表达式 LCEL来看,,可以大概看出大模型的应用主要分三部分,prompt 提示词、model模型计算 、output_parser输出格式化。今天我们讲 prompt。在深入了解langchain这一块的源码前,我们先简单看看它的概念和简单的运用通过上述步骤,我们使用 LangChain 创建了一个 prompt template,并通过填充模板生成了一个具体的 prompt,最后将其应用于 OpenAI 的大模型生成内容。原创 2024-05-28 09:00:00 · 1669 阅读 · 0 评论 -
LangChain 表达语言(LCEL)的底层是怎么实现的
看langchain文档里的一段示例代码,演示了怎么把提示 + 模型 + 输出解析器链接在一起。不知道大家有没有疑问官方说类似于unix管道操作符,但是python本身不是默认支持管道操作符的,那它是怎么实现的呢运算符重载是通过定义特定的魔术方法(特殊方法)来实现的。__add____sub____mul____or____or__方法的定义非常简单,接受一个参数,表示运算符右侧的对象。通常,__or__方法会返回一个新对象,代表了两个对象通过运算符结合的结果。原创 2024-05-27 09:00:00 · 2334 阅读 · 0 评论 -
一起学习大模型 - 从底层了解Token Embeddings的原理(1)
大家在使用离线或在线的Token Embeddings的时候,有没有想过它是怎么实现的呢,出来的一系列有各种数值的矩阵,又有什么含义呢?它们的作用是什么?Token Embeddings 是一种将文本中的词语转化为向量表示的方法。在自然语言处理中,我们通常将文本表示为一个向量矩阵,其中每个词语对应一个向量。这些向量被称为词向量或者词嵌入。Token Embeddings 是一种词向量的扩展,它可以将不同类型的词语(如单词、字符、子词)都转化为向量表示。原创 2024-05-25 09:00:00 · 3770 阅读 · 0 评论