horryben-优快云博客

原创 Lora训练SD1.5与SDXL

Stable Diffusion XL (SDXL) 相较于 Stable Diffusion 1.5 (SD1.5) 具有显著的优势，包括更高的图像质量和细节处理能力、更大的生成多样性和文本一致性、优化的网络架构和训练效率、更强的扩展性和适用性、广泛的社区支持和易于集成的特性，以及更大规模的训练数据和改进的正则化技术。我们需要微调的大模型，这里选择SD1.5模型，此文件的下载有两条路径：一是使用科学上网的方式从huggingface中搜索后直接下载，但是这样做的下载速度会比较缓慢。

2024-09-26 10:25:29 2240

原创使用python搭建模型库服务

这里获取onnx模型文件的原因是onnx模型文件中包含了模型架构与模型参数，方便我们直接调用训练好的模型，不需要分别加载网络和网络权重。这段代码内容是启动服务代码，使用这段代码能完成对在服务器上的后台搭建，第一条代码也需要在启动这段代码后才能顺利运行。可以使用上述代码验证模型调用的正确性，确保后续步骤能稳定运行。

2024-09-24 17:11:01 499

原创交叉熵与KL散度

对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为等价于即按概率P求得的P和Q的对数商的平均值。KL散度仅当概率P和Q各自总和均为1，且对于任何i皆满足及时，才有定义。式中出现的情况，其值按0处理。对于连续随机变量，其概率分布P和Q的KL散度可按积分方式定义为[2]其中p和q分别表示分布P和Q的密度。更一般的，若P和Q为集合X的概率测度，且P关于Q绝对连续，则从P到Q的KL散度定义为其中，假定右侧的表达形式存在，则为Q关于P的R–N导数。相应的，若P关于Q绝对连续，则。

2024-09-12 17:11:30 607

原创 python学习

python里的flatten(dim)表示，从第dim个维度开始展开，将后面的维度转化为一维.也就是说，只保留dim之前的维度，其他维度的数据全都挤在dim这一维。flatten()和flatten(0)效果一样,a这个数据从0维展开，就是（2 ∗ 3 ∗ 4 2342∗3∗4），维度就是(24)a从1维展开flatten(1)，就是( 2 , 3 ∗ 4 )，也就是（2，12）.a若是从2维展开flatten(2)，那就是（2，3，4）和之前没有变化。比如我们随机定义一个维度为（2，3，4）的数据a。

2024-09-12 17:00:55 816

原创 AutoGPTQ量化环境搭建与示例实现

运行上述代码后可以得到一个量化后的文件夹，这个量化后的模型是以.safetensor格式保存的。文件中具体内容如下所示。

2024-09-10 13:47:50 870

原创性能评估工具Profiler的使用与相关介绍

在这个界面中就可以对模型的各项运行性能进行一个详细的观测：在上面的界面中有GPU Sunmmary面板，这个面板中包含了GPU的基本信息、算力与使用率以及使用效率，右上角则为各种设备的使用时间与使用率。在小批次推理过程中，量化前后的网络模型体现并不明显，主要运行时间集中在CPU的计算过程中，这个过程主要是CPU对数据传输的过程，想要加速这个过程需要对CPU的使用做一定的处理。上述内容中需要注意的是这里的safetensor格式内容是通过量化后得到的，所以需要对模型的权重进行手动映射。

2024-09-09 14:27:26 1198

原创 GPTQ量化技术中的hessian矩阵原理

假设有一实值函数f(x_1,x_2,……,x_n)，如果f的所有二阶偏导数都存在并在定义域内连续，那么函数f的hessian矩阵为或使用下标记号表示为显然黑塞矩阵是一个n×n方阵。黑塞矩阵的行列式被称为黑塞式（英语：Hessian），而需注意的是英语环境下使用Hessian一词时可能指上述矩阵也可能指上述矩阵的行列式。

2024-09-05 09:54:06 1500

原创大模型量化需要学习的矩阵运算基础

假设a，b为可以相互点乘的向量，对b求导为a，同理对a求导为b，这是因为在矩阵的点积运算中a的每一行会乘以b的每一列，求导的过程实际是对b的过程，，所以最后保留下来的是a而不是。伴随矩阵是线性代数中的一个概念，与矩阵的逆和行列式有关。对于一个给定的方阵A，伴随矩阵 adj(A)是一个矩阵，其元素是A的代数余子式（cofactor）的转置。3 转置：对代数余子式矩阵C进行转置，得到伴随矩阵 adj(A)。其中 det(A)是矩阵A的行列式，I是单位矩阵.组成一个新的矩阵 C，这个矩阵称为代数余子式矩阵.

2024-09-05 09:38:47 655

原创 Transformer中的Encoder与Decoder内容

与自注意力不同，多头注意力机制的输入向量为整个序列内容，通过多个不同的头，对整个序列内容的升纬操作创建了多个不同的W^Q、W^K、W^V，这个过程中的计算方法与自注意力中的计算方法是完全相同的，而后每个W^Q、W^K、W^V都经过注意力函数的计算的到最后的输出z_i,整合所有头的z就可以得到最后多头注意力的输出。这样就做到了”遮蔽未来位置“的作用。在Transformer的decoder中需要注意的是在不同任务中使用的K、V是由encoder最后的输出线性变换得到的，decoder提供最后的Q的输入。

2024-08-30 15:35:39 991

qq_41878154的博客

原创 Lora训练SD1.5与SDXL

原创使用python搭建模型库服务

原创交叉熵与KL散度

原创 python学习

原创 AutoGPTQ量化环境搭建与示例实现

原创性能评估工具Profiler的使用与相关介绍

原创 GPTQ量化技术中的hessian矩阵原理

原创大模型量化需要学习的矩阵运算基础

原创 Transformer中的Encoder与Decoder内容

原创 self-Attention（自注意力）深度解读

原创 Linux命令指南

原创 Transformer深度解析，从原理出发分析Attention

原创 TensorFlow Lite工具，实现量化、优化及转换功能

空空如也

空空如也