自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大模型相关知识-Transformers里面的Autoxxx函数

Hugging Face 的 Auto 系列通过动态适配机制,显著简化了模型加载流程,支持跨架构、跨任务的灵活切换。同一代码适配不同模型。通过 AutoModelForXXX 快速加载任务头。减少硬编码依赖,提升可维护性。对于需要快速实验或多模型支持的项目,Auto 类是首选;而在对性能或透明度要求极高的场景中,可结合显式类使用。

2025-02-19 22:40:01 720

原创 大模型基础-简易理解版-SFT

SFT是一种在预训练大模型基础上,使用有标签的特定任务数据进一步优化模型的方法。通过这种方式,模型能够将通用语言理解能力迁移到具体任务中(如问答、翻译等),显著提升任务表现。

2025-02-18 23:27:17 1823

原创 大模型相关基础知识-简易理解版-预训练模型微调

如果使用的不是BERT模型,而是其他类型的模型(例如RoBERTa、DistilBERT、XLNet等),微调的基本步骤和思路是相似的。通过交叉验证和早停策略选择最佳模型。DistilBERT是BERT的一个轻量级版本,具有更少的参数,但仍保留了较好的性能。通过以上步骤,可以有效地对下游任务的数据集进行预处理,从而提高模型的性能和泛化能力。:适用于源域和目标域样本高度相似的情况,或者需要充分利用预训练模型的通用特征的任务。RoBERTa是BERT的一个改进版本,训练时使用了更多的数据和不同的训练策略。

2025-02-18 09:15:09 1923

原创 大模型基础-简易理解版-LoRA

这是因为LoRA的低秩矩阵注入方法需要使用整个PLM的梯度信息来计算注入矩阵的梯度。微调完的LoRA模型权重可以Merge回原来的权重,不会改变模型结构,推理时不增加额外计算量;通过这种方式,LoRA能以1-10%的参数量实现接近全参数微调的效果,实际应用中,可结合Hugging Face的 peft 库快速实现适配。:由于只训练低秩矩阵,参数量大幅减少(通常为原始模型参数的0.1%-1%),计算和存储开销显著降低。在微调过程中,只训练低秩矩阵 A和B,而冻结原始模型的权重,从而大幅减少计算开销。

2025-02-16 00:00:51 1814

原创 SCUT-《高级计算机网络》复习笔记第5&6章

内部使用相同的IGP(interior gateway protocol)和量度去引l导分组,外部使用EGP(exterior gateway protocol)去引l导分组到其他AS。未选举DR前,网络上的所有路由器两两都要发送自己的链路状态数据库内容,对于带宽是一个很大的考验,选举了DR后,所有的路由器只要相连于DR即可,● 接口的DR优先级相等时,Router ID越大越优先。减少了同步的次数O(n),减少了带宽的利用。● 接口的DR优先级越大越优先。

2025-01-14 13:59:59 231

原创 SCUT-《高级计算机网络》复习笔记第1&2章

高级计算机网络课程学习笔记

2025-01-14 13:39:16 855

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除