- 博客(6)
- 收藏
- 关注
原创 大模型相关知识-Transformers里面的Autoxxx函数
Hugging Face 的 Auto 系列通过动态适配机制,显著简化了模型加载流程,支持跨架构、跨任务的灵活切换。同一代码适配不同模型。通过 AutoModelForXXX 快速加载任务头。减少硬编码依赖,提升可维护性。对于需要快速实验或多模型支持的项目,Auto 类是首选;而在对性能或透明度要求极高的场景中,可结合显式类使用。
2025-02-19 22:40:01
720
原创 大模型基础-简易理解版-SFT
SFT是一种在预训练大模型基础上,使用有标签的特定任务数据进一步优化模型的方法。通过这种方式,模型能够将通用语言理解能力迁移到具体任务中(如问答、翻译等),显著提升任务表现。
2025-02-18 23:27:17
1823
原创 大模型相关基础知识-简易理解版-预训练模型微调
如果使用的不是BERT模型,而是其他类型的模型(例如RoBERTa、DistilBERT、XLNet等),微调的基本步骤和思路是相似的。通过交叉验证和早停策略选择最佳模型。DistilBERT是BERT的一个轻量级版本,具有更少的参数,但仍保留了较好的性能。通过以上步骤,可以有效地对下游任务的数据集进行预处理,从而提高模型的性能和泛化能力。:适用于源域和目标域样本高度相似的情况,或者需要充分利用预训练模型的通用特征的任务。RoBERTa是BERT的一个改进版本,训练时使用了更多的数据和不同的训练策略。
2025-02-18 09:15:09
1923
原创 大模型基础-简易理解版-LoRA
这是因为LoRA的低秩矩阵注入方法需要使用整个PLM的梯度信息来计算注入矩阵的梯度。微调完的LoRA模型权重可以Merge回原来的权重,不会改变模型结构,推理时不增加额外计算量;通过这种方式,LoRA能以1-10%的参数量实现接近全参数微调的效果,实际应用中,可结合Hugging Face的 peft 库快速实现适配。:由于只训练低秩矩阵,参数量大幅减少(通常为原始模型参数的0.1%-1%),计算和存储开销显著降低。在微调过程中,只训练低秩矩阵 A和B,而冻结原始模型的权重,从而大幅减少计算开销。
2025-02-16 00:00:51
1814
原创 SCUT-《高级计算机网络》复习笔记第5&6章
内部使用相同的IGP(interior gateway protocol)和量度去引l导分组,外部使用EGP(exterior gateway protocol)去引l导分组到其他AS。未选举DR前,网络上的所有路由器两两都要发送自己的链路状态数据库内容,对于带宽是一个很大的考验,选举了DR后,所有的路由器只要相连于DR即可,● 接口的DR优先级相等时,Router ID越大越优先。减少了同步的次数O(n),减少了带宽的利用。● 接口的DR优先级越大越优先。
2025-01-14 13:59:59
231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人