自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 大模型学习笔记(3)——OpenAI Embedding

图灵测试(Turing Test)是由英国数学家和计算机科学家艾伦·图灵(Alan Turing)在1950年提出的一种方法,用来评估机器是否具备智能。图灵测试的核心思想是:如果一个机器能够与人类进行对话(通常是文字交流),并且在对话过程中,观察者无法确定其是人还是机器,那么该机器就可以被认为具备了“智能”。:一个观察者(通常称为“评估者”)与一个人类和一个机器分别对话,所有对话都是通过屏幕或其他方式进行,以避免任何声音或外貌上的线索。:评估者通过一系列问题试图判断哪个对话对象是人类,哪个是机器。

2024-11-09 00:27:59 1780

原创 大模型学习笔记(2)——Prompt learning提示学习

Tree-of-Thought(思维树)通过多层次、多路径的树状结构,有效提升了大型语言模型在复杂推理任务中的准确性和稳健性。它通过在每个节点上生成多分支路径,逐步分析和筛选,从而得出最优的答案。这种方法不仅增加了模型的推理深度,还增强了模型的解释性,是解决复杂任务、提高推理质量的一种先进技术。

2024-10-31 18:24:47 1990

原创 GPT模型

GPT(Generative Pre-trained Transformer)是一种生成式预训练模型,基于Transformer架构,主要用于自然语言处理(NLP)任务,如文本生成、对话、翻译和文本总结等。GPT模型的核心思想是通过大量文本数据的预训练来学习语言模式,然后在特定任务上进行微调。GPT采用了Transformer模型的解码器部分。

2024-10-31 02:21:39 930

原创 Bert模型

BERT是一个强大的语言表示模型,能够有效地捕获上下文语义信息。通过预训练和微调,BERT不仅在各种任务上表现出色,也为后续的NLP模型发展奠定了基础。

2024-10-31 00:40:56 682

原创 Transformer模型

Transformer模型是一种基于自注意力(Self-Attention)机制的深度学习模型,最初由Vaswani等人在2017年提出,用于解决序列到序列(seq2seq)问题,比如机器翻译、文本生成等任务。Transformer通过完全抛弃了循环神经网络(RNN)和卷积神经网络(CNN),直接依赖自注意力机制,极大提升了处理速度和性能。它的核心包括编码器-解码器结构、位置编码、注意力机制等。

2024-10-31 00:29:31 889

原创 Attention机制

Self-Attention是一种机制,作用是让句子中的每个单词可以“关注”同一句子中的其他单词,甚至关注自己。

2024-10-31 00:14:22 762

原创 大模型学习笔记(1)

Transformer与RNN的核心区别在于:Transformer使用Attention机制并行处理整个序列,RNN则通过逐步传递的方式处理序列。Transformer的效率更高、表现更好,尤其适合长序列任务,而RNN则适合处理简单、短序列任务。因此,Transformer可以被视为RNN的一种替代方案,在序列任务上提供了更高效的选择。

2024-10-30 18:25:31 629

原创 GRU_CNN文本分类方法

LSTM是一种强大的RNN变体,专门设计用于处理长时间依赖性的问题。它通过门机制(遗忘门、输入门和输出门)来控制信息流动,能够在长序列中有效地保留或遗忘信息。尽管LSTM的计算成本较高,但其在自然语言处理、时间序列预测和语音识别等任务中表现出色,被广泛应用于需要处理复杂时序关系的任务中。梯度爆炸:梯度值在反向传播过程中变得过大,导致模型不稳定。解决办法包括梯度裁剪和正则化。梯度消失:梯度值在反向传播过程中逐层变小,模型无法有效学习。

2024-10-13 17:42:50 1496

原创 Deep learning from scratch note(fish book-Japan)

实际上,前面提到的使用了MNIST数据集的例子中,输入图像就是1通道、高28像素、长28像素的(1.28,28)形状,但是却被排成1列,以784个数据的形式输入到最开始的Affine层。为了改善这个问题,可以使用RMSProp方法,这个方法并不是将过去所有的梯度一视同仁的相加,而是逐渐的遗忘过去的梯度,在做加法运算时将新梯度的信息更多的反映出来。以下的代码使用了层,通过使用层,获得识别结果的处理(predict())和计算梯度的处理(gradient())只需要通过层之间的传递就能完成。

2024-02-10 23:23:34 686 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除