- 博客(55)
- 收藏
- 关注
原创 基础积累-ML
其实结果就是-1 * logsoftmax(pred_i), i = label_index。p是预测概率,经过sigmoid处理。p是softmax处理之后的结果。
2024-07-24 01:29:58
288
原创 LLM分布式训练
每一步计算结果都会影响下一步,如果说某一步(在某一个gpu上)执行时间过长。会有很多空闲状态的gpu,那么就会很影响整体效率。如何去切分模型,让每个gpu分配差不多的计算量,这是这种方式的问题所在。把模型做split, 把模型拆成不同部分放在不同gpu上,然后串行执行。每个gpu上分配一些数据,并在每个GPU上加载一个完整的模型。将矩阵计算分成多个部分,分别放到不同GPU上计算,再汇总。问题是带来额外的通信问题。
2024-05-23 01:05:28
236
原创 LLM加速相关
Transformer-block基本参数计算假设,隐层维度为h,SA就有四个h * h的权重和对应的偏置:4h² + 4hMLP:两层,h * 4h,偏置4h 和 4h * h ,偏置h: 8h² + 5hLN: 一个α一个β,应该是2h,上图可能有错所以每个block就是 12h² + 11h(图中为13h)假设有L层,那么total参数量:L*(12h² + 11h),当h够大时,12h² >> 11h所以总参数量可估算为L * 12h²根据该公式,可估算Llama的参数量。
2024-05-21 02:09:43
877
原创 Llama微调部署
1. Llama一个出发点就是,在如何在推理资源有效,算力受限的情境下,模型推理效果越好。思想是:只要训练数据足够多,训练时间足够长,就算模型小也能达到不俗的效果。
2024-05-17 02:04:03
328
原创 LLM量化
针对每种任务,学习prefix vector启发于prompting,调整上下文内容让模型去输出自己想要的内容核心就是找到一个上下文去引导模型解决NLP生成任务传统情况下,我们为了得到想要的结果,会人工去设计一些模版,这被称为硬模板这种人工设计模版的方式往往需要大量尝试,所以另一种可以通过模型学习的,添加一组没有明确意义的prompt tensor的方式被提出,叫做软模板实际实现中,就是添加了一个embedding层,形状为prefix_tokens * target_dims,
2024-05-13 01:30:20
702
1
原创 代码随想录算法训练营第二十二天|235. 二叉搜索树的最近公共祖先、 701.二叉搜索树中的插入操作、450.删除二叉搜索树中的节点
二叉排序树,递归就完事
2022-12-29 01:44:48
45
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人