自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 《从零构建大语言模型》学习笔记4,注意力机制1

摘要 本文介绍了大语言模型核心算法自注意力机制的原理与实现方法。首先展示了无训练权重的自注意力计算过程,包括词向量点积、注意力分数归一化和上下文向量生成。随后引入可训练参数矩阵(Wq、Wk、Wv)实现更复杂的注意力机制,详细阐述了query、key、value向量的计算步骤。最后介绍了基于PyTorch的自注意力类实现,并讨论了掩码机制的重要性,即通过遮盖未来信息来提升模型预测能力。文章通过代码示例和图示直观展示了自注意力机制的核心计算流程。

2025-08-10 23:19:27 950

原创 《从零构建大语言模型》学习笔记3,文本数据处理2

《从零构建大语言模型》学习笔记3:文本数据处理2 本文介绍了构建大语言模型训练数据集的完整流程。首先通过滑动窗口技术将标记ID序列转换为输入-输出对,构建PyTorch数据集。接着使用Embedding层将标记ID转换为高维词向量(如256维),并添加位置编码以保留词序信息。关键步骤包括:1) 创建自定义Dataset类实现数据采样;2) 使用DataLoader进行批量加载;3) 通过词嵌入层(vocab_size=50257)转换离散标记为连续向量;4) 引入位置编码增强模型对词序的理解。这些预处理为后

2025-08-09 11:11:50 787

原创 《从零构建大语言模型》学习笔记2,文本数据处理1(以及tiktoken库无法下载gpt2参数,调用get_encoding时SSL超时的解决方法)

摘要 本文介绍了构建大语言模型前的文本数据处理步骤,重点讲解了分词和词元转换过程。首先通过正则表达式将原始文本分割为词元列表,然后建立词元到数字ID的映射关系。随后改进分词器,加入了特殊标记处理未知词元和段落结束。最后提到实际应用中会使用更先进的字节对编码(BPE)方法,如GPT-2采用的tiktoken库。文章通过代码示例展示了从简单到复杂的分词实现过程,为后续模型训练准备文本数据。

2025-08-08 17:45:33 1072

原创 《从零构建大语言模型》学习笔记1,环境配置

本文介绍了如何配置《从零构建大语言模型》的学习环境。主要内容包括:使用conda创建Python 3.10虚拟环境并激活;安装项目所需的第三方库,特别说明了GPU用户需要根据CUDA版本调整PyTorch安装;最后通过运行验证脚本检查环境配置是否正确。文章为初学者提供了清晰的步骤指引,帮助快速搭建LLM学习所需的开发环境。

2025-08-08 11:29:46 405

原创 keras载入模型报错ValueError: The channel dimension of the inputs should be defined. Found `None’ ,解决思路

检查了几遍都觉得没啥问题,困扰了我很久,而且我另外写的一个手写数字集的识别就没有这个问题。尤其是模型的输入地方,检查了很久,modl.build(input_shape=[None,256,256,3]),觉得有这句话应该不会造成输入的维度不对。而且想了下为什么手写数字集的模型没问题,应该是因为那个模型是一个线性模型,没有用的卷积,只有2个维度,所以没有造成冲突,有些情况下那样写也没出错。第二次运行代码载入该模型时报错。试了该方法,没有用,而且我的文件这个值就是channels_last,不需要修改。

2023-11-23 21:05:36 1565

原创 HTK的安装和使用(Yes Or No孤立词识别)

开始学习计划中的第一步 HTK安装和使用

2016-08-08 14:56:35 5090

原创 Linux tcpdump命令详解

Linux tcpdump命令详解简介用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 实用命令实例默认启动tcpdu

2014-01-13 23:47:20 537

网页设计课件及源代码

网页设计入门,有html语言以及dreamweaver的使用···

2011-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除