1、普通卷积:一个卷积核中的通道数据和输入特征图对应通道数据进行乘累加,然后将所有通道的数据再进行累加,得到最终输出结果。合适的卷积核可以保留图形和视频中的低频信息,衰减高频信息。能够学习到不同通道特征的相关性,对全局特征提取能力较强。通过不同的卷积核可以提取输入特征图的不同特征信息。而权重则是对这些特征进行组合和调整的参数。通过乘累加操作,能够将不同通道提取到的特征按照权重进行加权组合,从而得到更具代表性和区分度的特征表示。
2、深度卷积:一个卷积核中的通道数据和输入特征图对应通道数据进行乘累加,得到多个通道数据。(多个通道数据不进行累加) 可以提取每个通道自身的特征,擅长提取局部特征。
3、你吃了吗?-》LLVM-》你吃了吗?我-》LLVM-》你吃了吗?我吃-》LLVM->你吃了吗?我吃了。迭代概率计算token。prompt(字符串)-》token(单词/字)-》input id(序号)(1*4096)-》embedding(地址偏移 1*24*4096)-》RMSNorm(公式计算)-》Linear(公式计算)->reshape(维度重塑1*24*32*128)->trans转置(1*32*24*128)-》RoPE(矩阵公式乘累加计算)-》matmul(算子计算)-》div(算子计算)->add(算子计算)->softmax(算子计算)-》预填充阶段(输出第一个token阶段)-》解码阶段(输出后面token阶段)。
KVCache显存占用计算公式:2*precision(精度)*layers*dim(KV隐藏层维度)*seq_len(上下文长度)*batch(输入batch)
3、稀疏是指大部分数据基本为空的数据结构。
4、MOE将一个复杂的问题分解为多个简单问题,每个问题分给一个专家,通过门控决定不同专家对问题的贡献度。
5、batch size表示一次训练中的样本个数。token len表示每个样本中的数据量。
6、量化就是将权重或者激活值转化为更低精度的整数。
7、构建神经网络模型是指设计和定义神经网络的结构和参数。这包括选择网络的层数、每层的类型、每一层的参数等。主要步骤包括:选择网络结构:决定使用什么样的网络结构,比如全连接网络(Dense Network)、卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)等。定义层:选择每一层的类型,比如卷积层、池化层、全连接层等。设置参数:为每一层设置参数,比如卷积层的滤波器数量、全连接层的节点数、激活函数等。
训练神经网络模型主要步骤包括:
准备数据:将数据集划分为训练集和测试集,对数据进行预处理(如归一化、标准化等)。
定义损失函数:选择一个合适的损失函数来衡量模型的预测值与真实值之间的差异。常见的损失函数有均方误差(MSE)、交叉熵损失(Cross-Entropy Loss)等。
选择优化算法:选择一个优化算法来更新网络参数,使得损失函数逐渐减小。常见的优化算法有随机梯度下降(SGD)、Adam、RMSprop 等。
前向传播:将输入数据通过网络进行前向传播,计算出预测值。
计算损失:使用损失函数计算预测值与真实值之间的差异。。
更新参数:使用优化算法更新网络参数,使得损失函数逐渐减小。