自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_47076956的博客

原创大模型学习笔记（3）——OpenAI Embedding

图灵测试（Turing Test）是由英国数学家和计算机科学家艾伦·图灵（Alan Turing）在1950年提出的一种方法，用来评估机器是否具备智能。图灵测试的核心思想是：如果一个机器能够与人类进行对话（通常是文字交流），并且在对话过程中，观察者无法确定其是人还是机器，那么该机器就可以被认为具备了“智能”。：一个观察者（通常称为“评估者”）与一个人类和一个机器分别对话，所有对话都是通过屏幕或其他方式进行，以避免任何声音或外貌上的线索。：评估者通过一系列问题试图判断哪个对话对象是人类，哪个是机器。

2024-11-09 00:27:59 1780

原创大模型学习笔记（2）——Prompt learning提示学习

Tree-of-Thought（思维树）通过多层次、多路径的树状结构，有效提升了大型语言模型在复杂推理任务中的准确性和稳健性。它通过在每个节点上生成多分支路径，逐步分析和筛选，从而得出最优的答案。这种方法不仅增加了模型的推理深度，还增强了模型的解释性，是解决复杂任务、提高推理质量的一种先进技术。

2024-10-31 18:24:47 1990

原创 GPT模型

GPT（Generative Pre-trained Transformer）是一种生成式预训练模型，基于Transformer架构，主要用于自然语言处理（NLP）任务，如文本生成、对话、翻译和文本总结等。GPT模型的核心思想是通过大量文本数据的预训练来学习语言模式，然后在特定任务上进行微调。GPT采用了Transformer模型的解码器部分。

2024-10-31 02:21:39 930

原创 Bert模型

BERT是一个强大的语言表示模型，能够有效地捕获上下文语义信息。通过预训练和微调，BERT不仅在各种任务上表现出色，也为后续的NLP模型发展奠定了基础。

2024-10-31 00:40:56 682

原创 Transformer模型

Transformer模型是一种基于自注意力（Self-Attention）机制的深度学习模型，最初由Vaswani等人在2017年提出，用于解决序列到序列（seq2seq）问题，比如机器翻译、文本生成等任务。Transformer通过完全抛弃了循环神经网络（RNN）和卷积神经网络（CNN），直接依赖自注意力机制，极大提升了处理速度和性能。它的核心包括编码器-解码器结构、位置编码、注意力机制等。

2024-10-31 00:29:31 889

原创 Attention机制

Self-Attention是一种机制，作用是让句子中的每个单词可以“关注”同一句子中的其他单词，甚至关注自己。

2024-10-31 00:14:22 762

原创大模型学习笔记（1）

Transformer与RNN的核心区别在于：Transformer使用Attention机制并行处理整个序列，RNN则通过逐步传递的方式处理序列。Transformer的效率更高、表现更好，尤其适合长序列任务，而RNN则适合处理简单、短序列任务。因此，Transformer可以被视为RNN的一种替代方案，在序列任务上提供了更高效的选择。

2024-10-30 18:25:31 629

原创 GRU_CNN文本分类方法

LSTM是一种强大的RNN变体，专门设计用于处理长时间依赖性的问题。它通过门机制（遗忘门、输入门和输出门）来控制信息流动，能够在长序列中有效地保留或遗忘信息。尽管LSTM的计算成本较高，但其在自然语言处理、时间序列预测和语音识别等任务中表现出色，被广泛应用于需要处理复杂时序关系的任务中。梯度爆炸：梯度值在反向传播过程中变得过大，导致模型不稳定。解决办法包括梯度裁剪和正则化。梯度消失：梯度值在反向传播过程中逐层变小，模型无法有效学习。

2024-10-13 17:42:50 1496

原创 Deep learning from scratch note(fish book-Japan)

实际上，前面提到的使用了MNIST数据集的例子中，输入图像就是1通道、高28像素、长28像素的（1.28,28）形状，但是却被排成1列，以784个数据的形式输入到最开始的Affine层。为了改善这个问题，可以使用RMSProp方法，这个方法并不是将过去所有的梯度一视同仁的相加，而是逐渐的遗忘过去的梯度，在做加法运算时将新梯度的信息更多的反映出来。以下的代码使用了层，通过使用层，获得识别结果的处理（predict()）和计算梯度的处理（gradient()）只需要通过层之间的传递就能完成。

2024-02-10 23:23:34 686 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除