- 博客(10)
- 收藏
- 关注
原创 大模型训练之减少显存占用和分布式训练
另一方面,在大模型训练时,GPU受限的往往是显存的大小而非算力问题,因此gradient checkpointing(激活重计算),以计算力为代价来减少内存使用。主要思想就是:反向传播的时候重新计算某些层的激活,代替前向计算后需要保存占用显存的操作,从而降低GPU显存的使用。由于FP16的动态范围( 6e−8∼65504 )比FP32的动态范围( 1.4e−45∼1.7×1038 )要狭窄很多,因此在计算过程中很容易出现上溢出和下溢出的错误,溢出之后就会出现“Nan”的问题。基于Apex 的 amp使用。
2025-07-02 11:46:53
833
原创 Prompt Learning和Instruction Learning
Prompt Learning 和 Instruction Learning 都是利用提示 (prompt) 来引导大型语言模型 (LLM) 执行特定任务的方法,但它们在多个方面存在显著区别。Prompt Learning 的优势在于可以利用预训练模型的已有知识,因此不需要大量的标注数据。固定预训练模型的参数,只调整 prompt 的参数 (例如,调整虚拟 token 的 embedding)。连续的prompt/soft prompt: 使用可学习的embedding, 而不是具体的文本。
2025-03-23 22:01:59
868
原创 DeepSeek 本地部署
LM Studio (免费但是未开源,可能有数据泄露风险,所有最好完全断网使用)、了解这些部署大模型的平台的底层架构。
2025-02-15 22:29:57
255
原创 注意力机制与使用了多头注意力和自注意力的transformer架构
http://zh.d2l.ai/chapter_attention-mechanisms/index.html参考《动手学深度学习》和论文attention is all you need 理解注意力机制经过漫长进化,人具有只将注意力引向感兴趣的一小部分信息的能力。这种引向体现在视觉世界中可以分为两种,通过非自主性提示或自主性提示进行有选择地引导注意力的焦点。非自主性提示是基于环境中物体的突出性和易见性,自主性提示受认知和意识的控制。自主性的与非自主性的注意力提示解释了人类的注意力的方式, 下面我们看看如
2022-09-09 16:35:42
1357
原创 python可视化、数据描述性统计分析、seanborn、scipy,spsspro必杀
最近在学习b站沐神的动手学深度学习课程,进程来到实战kaggle房价预测。准备在数据分析和预处理这部分扩充下自己的实操技能,多学习点python可视化、数据描述性统计分析的方法,了解熟悉下python的一些库。...
2022-08-25 20:09:18
2409
原创 用XGBoost 做特征选择,遇到的问题及解决办法。Matplotlib is currently using agg, which is a non-GUI。
用机器学习做kaggle 放假预测时,特征工程后的的特征有三百多个,要降维,决定用XGBoostregressor .由于特征特征太多在后面可视化遇到了些问题,先说一下我特征选择的大致过程,再说遇到的问题。......
2022-08-25 20:04:42
782
转载 [动手学深度学习]softmax回归
softmax运算获取一个向量并将其映射为概率softmax是一个多类分类模型使用softmax操作得到每个类的预测置信度(非负,和为1)使用交叉熵来衡量预测和实际类别的区别httpshttpshttpshttpshttpshttpshttpshttpshttpshttpshttpshttps。...
2022-07-29 17:20:57
374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1