卷积相关知识_卷积运算 token-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44440522/article/details/140400965

1、普通卷积：一个卷积核中的通道数据和输入特征图对应通道数据进行乘累加，然后将所有通道的数据再进行累加，得到最终输出结果。合适的卷积核可以保留图形和视频中的低频信息，衰减高频信息。能够学习到不同通道特征的相关性，对全局特征提取能力较强。通过不同的卷积核可以提取输入特征图的不同特征信息。而权重则是对这些特征进行组合和调整的参数。通过乘累加操作，能够将不同通道提取到的特征按照权重进行加权组合，从而得到更具代表性和区分度的特征表示。

2、深度卷积：一个卷积核中的通道数据和输入特征图对应通道数据进行乘累加，得到多个通道数据。(多个通道数据不进行累加) 可以提取每个通道自身的特征，擅长提取局部特征。

3、你吃了吗？-》LLVM-》你吃了吗?我-》LLVM-》你吃了吗？我吃-》LLVM->你吃了吗?我吃了。迭代概率计算token。prompt(字符串)-》token(单词/字)-》input id(序号)(1*4096)-》embedding（地址偏移 1*24*4096）-》RMSNorm(公式计算)-》Linear(公式计算)->reshape(维度重塑1*24*32*128)->trans转置(1*32*24*128)-》RoPE(矩阵公式乘累加计算)-》matmul(算子计算)-》div(算子计算)->add(算子计算)->softmax(算子计算)-》预填充阶段(输出第一个token阶段)-》解码阶段(输出后面token阶段)。

KVCache显存占用计算公式：2*precision(精度)*layers*dim(KV隐藏层维度)*seq_len(上下文长度)*batch(输入batch)

3、稀疏是指大部分数据基本为空的数据结构。

4、MOE将一个复杂的问题分解为多个简单问题，每个问题分给一个专家，通过门控决定不同专家对问题的贡献度。

5、batch size表示一次训练中的样本个数。token len表示每个样本中的数据量。

6、量化就是将权重或者激活值转化为更低精度的整数。

7、构建神经网络模型是指设计和定义神经网络的结构和参数。这包括选择网络的层数、每层的类型、每一层的参数等。主要步骤包括：选择网络结构：决定使用什么样的网络结构，比如全连接网络（Dense Network）、卷积神经网络（Convolutional Neural Network, CNN）、循环神经网络（Recurrent Neural Network, RNN）等。定义层：选择每一层的类型，比如卷积层、池化层、全连接层等。设置参数：为每一层设置参数，比如卷积层的滤波器数量、全连接层的节点数、激活函数等。

训练神经网络模型主要步骤包括：

准备数据：将数据集划分为训练集和测试集，对数据进行预处理（如归一化、标准化等）。

定义损失函数：选择一个合适的损失函数来衡量模型的预测值与真实值之间的差异。常见的损失函数有均方误差（MSE）、交叉熵损失（Cross-Entropy Loss）等。

选择优化算法：选择一个优化算法来更新网络参数，使得损失函数逐渐减小。常见的优化算法有随机梯度下降（SGD）、Adam、RMSprop 等。

前向传播：将输入数据通过网络进行前向传播，计算出预测值。

计算损失：使用损失函数计算预测值与真实值之间的差异。。

更新参数：使用优化算法更新网络参数，使得损失函数逐渐减小。