hello_liuniuniu-优快云博客

原创浮点数的快速记忆

即:S=1 M=110 E=9，所以得到1 1001 110，0xce。原尾数 = 1.100110101010101010101010101。S = 第27位后面所有位的或（逻辑“或”）FP8的E5M2格式，E=5，bias=2。格式：E5M2 E4M3。前24位 → G R S。指数全1，尾数不全为0。

2025-05-28 16:28:56 254

原创【基础知识】DeepLeaning

在学习过程中的一些笔记，记录一些基本概念。

2025-05-21 11:36:53 302

定义：用于部署和实时运行模型，为在线系统（如 Web 服务、实时推荐系统）提供 AI 推理支持。通常开发者先在离线框架中完成模型的训练和调优，然后通过在线框架将训练好的模型部署到生产环境。代表： OpenVINO（Intel）、TVM、NVIDIA CUDA（底层库）。代表： TensorFlow、PyTorch、Caffe、Keras。定义：用于离线训练和批量推理，通常支持分布式训练和高效数据处理。面向传统机器学习模型（如回归、分类、聚类等）。（一）AI 框架分类：在线框架与离线框架。

2025-01-13 09:37:42 533

原创关于NOC中涉及deadlock中几个概念

deadlock SS SAA

2025-01-10 17:09:28 700

原创卷积的基本操作学习（二）

如果第一步转化成列向量，则这里应该转化成行向量，这是由矩阵乘法的计算特性决定的，即一个矩阵的每一行和另一个矩阵的每一列做内积，所以特征图和卷积核只能一个展开为行，一个展开为列。以蓝色的特征图为例，它是一个 3 x 3 的矩阵，而卷积核是一个 2 x 2 的矩阵，当卷积核的滑动步长为 1 时，那么传统的直接卷积计算一共需要进行 4 次卷积核与对应特征子矩阵之间的点积运算。将卷积过程中用到的所有特征子矩阵整合成一个大型矩阵存放在连续的内存中，虽然增加了存储成本，但是减少了内存访问的次数，从而缩短了计算时间。

2025-01-01 17:18:59 427

hello_liuniuniu的博客

原创玄铁E907使用记录（To be continued）

原创【笔记】设计语义定义

原创浮点数的快速记忆

原创【基础知识】DeepLeaning

原创【学习笔记】量化

原创 AI框架类型

原创关于NOC中涉及deadlock中几个概念

原创卷积的基本操作学习（二）

原创线程中的锁

原创卷积基本操作学习(一)

原创 IR Drop

原创 AI模型的学习

原创 AI相关学习笔记

Memory Hierarchy学习汇报

空空如也