AI
文章平均质量分 91
diy ai工具类、ai资讯类等
changleweiyangday
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Build a Large Language Model (From Scratch) 学习笔记(一)
Build a Large Language Model (From Scratch) 学习笔记原创 2024-12-06 19:43:01 · 2182 阅读 · 0 评论 -
Build a Large Language Model (From Scratch) 学习笔记(二)一
从本质上讲,嵌入是一种从离散对象(如单词、图像,甚至是完整的文档)到连续向量空间中的点的映射——嵌入的主要目的是将非数值数据转换为神经网络能够处理的格式。例如,在对多个独立的文档或书籍进行类似GPT的大语言模型(LLM)训练时,常见的做法是在每一个紧随前一个文本来源的文档或书籍之前插入一个词元,如下图所示。注释:词嵌入(word embeddings)是自然语言处理(NLP)中的一个关键概念,它指的是将词汇或短语从词汇表映射到一个连续的向量空间的技术,使得语义相似的词汇在向量空间中距离较近。原创 2025-02-24 21:30:00 · 910 阅读 · 0 评论 -
Build a Large Language Model (From Scratch) 学习笔记(二)
本章内容涵盖:为大语言模型训练准备文本;将文本拆分为单词和子词标记;字节对编码作为一种更高级的文本标记化方法;采用滑动窗口方法抽取训练样本;将标记转换为向量以输入到大语言模型中。原文目录如下本篇笔记篇幅受限,拆分为两部分内容,本文中包含2.1-2.4内容。在预训练阶段,LLM会逐个词地处理文本。通过使用包含数百万至数十亿参数的模型进行下一个词预测任务,可以训练出具有令人印象深刻能力的模型。然后,这些模型可以进一步微调,以遵循一般指令或执行特定的目标任务。原创 2025-02-24 21:15:00 · 1513 阅读 · 0 评论
分享