- 博客(31)
- 收藏
- 关注
原创 rag检索增强生成概念
RAG(Retrival Augmented Generation)检索 增强 生成通过检索相关的知识并将其融入Prompt。
2025-06-12 19:37:47
180
原创 私人笔记:动手学大模型应用开发llm-universe项目环境创建
解决langchain相关报错记录:PydanticUserError:you should define `Union`, then call `LLMBashChain.model_rebuild()`.PydanticUserError:you should define `BaseCache`, then call `LLMBashChain.model_rebuild()`.的方法
2025-04-17 21:57:55
247
原创 llama源码学习·model.py[6]TransformerBlock类
这个TransformerBlock类的设计允许多个这样的块可以堆叠在一起,形成一个深度的Transformer网络。每个块的输出会被用作下一个块的输入,这样的设计使得Transformer能够处理非常复杂的序列建模任务。
2025-03-23 18:22:32
915
原创 llama源码学习·model.py[5]FeedForward前馈神经网络
在输入层和输出层之间,可以有多个隐藏层。每个隐藏层的节点将前一层的输出作为输入,进行一定的线性和非线性变换,然后将结果传递给下一层。输出层的节点将最后一个隐藏层的输出作为输入,进行变换后,产生网络输出。FNN能够逼近任意复杂度函数,是一种强大的函数逼近器。接受外部的输入信号,并将信号传递到网络的下一层。在 [llama源码学习·model.py。能够学习到输入数据的非线性特征表示。,然后用 1075 //是256,但是我们期待的。的倍数,所以我们期待的。可用于分类任务和回归任务。得到 4,用 4 *
2025-03-23 18:19:12
1067
原创 llama源码学习·model.py[4]Attention注意力(2)源码分析
是一个并行版本的线性全连接层,用于在列方向上分割权重矩阵:假如有一个全连接层,权重矩阵的维度是[in_features(输入特征的数目), out_features(输出特征的数目)],ColumnParallelLinear 会将 out_features 划分成几个较小的部分,并在多个设备上分别进行计算。这样,当处理下一批数据时,缓存中就包含了所有已经处理过的历史信息,从而可以进行全历史范围的注意力计算。是本地键值头的数量)第四维是每个头的维度,这样做的目的是为了后续的并行计算和注意力打分。
2025-03-22 20:58:00
1524
原创 llama源码学习·model.py[4]Attention注意力(1)原理
图片来自https://jalammar.github.io/illustrated-transformer/Query(查询)向量、Key(键)向量、Value(值)向量。这三个向量是通过线性变换得到的,即通过与权重矩阵相乘来计算。对于QueryQueryX⋅WQXWQQueryQueryQuery。
2025-03-22 15:52:11
1216
原创 llama源码学习·model.py[3]ROPE旋转位置编码(4)ROPE的应用
【代码】llama源码学习·model.py[3]ROPE旋转位置编码(4)ROPE的应用。
2025-03-20 22:08:47
573
原创 llama源码学习·model.py[3]ROPE旋转位置编码(3)源码中的广播机制
【代码】llama源码学习·model.py[3]ROPE旋转位置编码(3)源码中的广播机制。
2025-03-20 22:07:53
321
原创 llama源码学习·model.py[3]ROPE旋转位置编码(2)旋转角度生成代码
生成的这个等比数列就是频率向量,这是基于 “Attention is All You Need” 论文中描述的位置编码来实现的。,不过旋转角度的信息在代码中依旧存储在。这一行是在计算两个位置索引。需要给定一个位置索引。位置编码的维度是 4。序列的最大长度是 3。
2025-03-20 20:31:16
921
原创 llama源码学习·model.py[3]ROPE旋转位置编码(1)原理
位置编码描述序列中实体的位置信息,为每个位置分配唯一的表示。Transformer使用智能位置编码方案,其中每个位置/索引都映射到一个向量。因此,位置编码层的输出是一个矩阵,其中矩阵的每一行表示序列的编码对象与其位置信息的总和。
2025-03-12 20:42:40
928
原创 llama源码学习·model.py[2]SwiGLU激活函数
GLU:将输入分成两部分,一部分直接经过线性变换,另一部分经过sigmoidsigmoidsigmoid函数变换,然后将这两部分的输出逐点相乘GLUxWVBcσxWb⊗xVcGLUxWVBcσxWb⊗xVc$ \sigma $ 是 $ sigmoid $ 激活函数$ W, V $ 权重$ b, c $ 偏置$ SwiGLU $ 是 $ GLU $ 的一种变体,其中包含了GLUGLUGLU和Sw。
2025-03-11 21:11:08
1009
原创 llama源码学习·model.py[1]RMSNorm归一化
归一化(Normalization)通常指的是将数据按比例缩放,使之落入一个小的特定区间,如0到1。在深度学习中,归一化有助于加快训练速度,提高模型性能,因为它确保了不同特征在训练过程中具。个过程通常用于在不同特征或数据点之间建立一致性,以便它们可以在相同的尺度上比较或处理。RMSNorm的基本思想是对网络层的激活输出进行归一化,以使它们具有统一的规模。对于每一个样本来说,先求出每一个特征的平方,在计算样本平方的均值。(scale),这样做可以加速训练过程并提高模型的稳定性。输入数据,得到归一化的结果。
2025-03-10 22:33:33
905
原创 llama源码学习·model.py[0]前情摘要
本系列文章主要记录Llama的核心算法和原理:RMSNorm归一化、SwiGLU激活函数、ROPE位置编码。本篇为该系列的第一篇,在此将Github中model.py源码附上,以便学习。
2025-03-10 21:42:43
314
原创 黑马MySQL进阶day03
PRIMARYUNIQUEFULLTEXT在InnoDB存储引擎中,根据索引的存储形式,又可以分为以下两种UNIQUE。
2024-09-27 21:30:19
857
原创 黑马MySQL进阶day02
索引结构:MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的结构,主要包含以下几种索引结构描述B+Tree索引最常见的索引类型,大部分引擎都支持B+树索引Hash索引底层数据结构使用哈希表实现的,只有精确匹配索引列的查询才有效,不支持范围查询R-tree(空间索引)空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少Full-text(全文索引)是一种通过建立倒排索引,快速匹配文档的方式。类似于Lucene,Solr,ES索引InnoDB。
2024-09-26 17:22:04
805
原创 黑马MySQL进阶day01
存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也被称为表类型。-- 查询建表语句-- 默认存储引擎:InnoDB在创建表时,指定存储引擎CREATE TABLE 表名(字段1 字段1类型,...字段n 字段n类型) ENGINE = INNODB [COMMENT 表注释];查看当前数据库支持的存储引擎-- 查询当前数据库支持的存储引擎-- 创建表 my_myisam,并指定MyISAM存储引擎id int,
2024-09-24 16:35:22
344
原创 跟着黑马学MySQL基础篇笔记(5)-事务
事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失效。2.转账操作3.事务操作查看/设置事务提交方式提交事务回滚事务开启事务提交事务回滚事务
2024-09-23 17:56:01
244
原创 跟着黑马学MySQL基础篇笔记(4)-多表查询
概述:指从多张表中查询数据笛卡尔积:笛卡尔乘积是指在数学中,两个集合A集合和B集合的所有组合情况。在多表查询时,需要消除无效的笛卡尔积多表查询分类连接查询内连接:相当于查询A、B交集部分数据外连接:左外连接:查询左表所有数据,以及两张表交集部分数据右外连接:查询右表所有数据,以及两张表交集部分数据自连接:当前表与自身的连接查询,自连接必须使用通过表别名子查询概念:SQL语句中嵌套SELECT语句,称为嵌套查询,又称子查询子查询外部的语句可以是的任何一个标量子查询。
2024-09-23 15:14:31
1245
原创 跟着黑马学MySQL基础篇笔记(3)-约束
概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据。目的:保证数据库中数据的正确、有效性和完整性。UNIQUEPRIMARYDEFAULTCHEAK:约束是作用于表中字段上的,可以在创建表/修改表的时候添加约束。
2024-09-22 13:33:44
619
原创 吃瓜教程打卡task2
(MLE),通过寻找使得观测数据出现的概率最大的参数值来对未知参数进行估计。(高斯提出的,也可以用中心极限定理解释),所以。为不受控制的随机误差,通常假设其服从均值为。去掉前面的常数和负号,相当于最小化后半部分式子。对于线性回归来讲,也可以假设其为以下模型。,下面便可以用极大似然估计来估计。来进行模型求解的方法称为。以上公式的意思是求使得。
2024-09-20 20:51:40
644
原创 曹锦纲老师第十三次课
串行码字检测和序列检测最大的区别就是串行码字检测时分组进行的,每组的检测过程相同。当码字最后一位输入后,电路转向为初始状态进行下一组检测,因此是Mealy型。原始状态图(表):根据逻辑功能的文字描述,直接建立起来的状态图(表)如果初始状态变成 3 ,那么 x = 0时,再回到 3 才输出 1。检测串行输入的 8421BCD码是否合法,不合法输出 1。模⑤加1加2计数器(记满五个状态后,输出 1 )有五个状态设为0,1,2,3,4,初始状态设0。炸弹引爆(检测 1111),炸掉后无次态。
2023-11-22 09:44:00
112
1
原创 刘军老师讲二叉树
树的后序遍历结果和把🌲变成二叉树之后的中序遍历结果是一样的。利用二叉链表的空指针域,链接他的直接前驱或者后驱。树的先序遍历结果和二叉树的先序遍历结果是一样的。左指针为空,指向直接前驱。只是认为多棵树的树根之间是兄弟关系。
2023-11-20 16:09:01
102
1
原创 VHDL抄写秒表
结构体描述设计实体内部的特性。结构体的书写格式如下:architecture 结构名字 of 实体名 is:内部信号、常量、数据类型、函数等的定义;begin:若干并行执行语句,具体描述结构体的功能和行为。end 结构体名;
2023-11-18 22:59:45
134
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人