自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 DeepSeek-R1-Distill-Qwen-1.5B 模型推理性能调优

然后加载大模型model,即加载大模型的权重,如果是lora微调的大模型,则同时加载微调的权重,针对对话性应用,通常是加载自回归类型(ForCausalLM)的大模型,如果是用于分类,可使用分类型(ForSequenceClassification)的大模型,等等。模型加载完成后,按照大模型的输入的格式对输入进行处理,一般包括:提示词,历史对话的处理,处理完成后作为整体经过分词器处理后,作为大模型model的输入,输出在经过数据转换得到推理的结果。

2025-08-03 18:41:24 120

原创 DeepSeek-R1-Distill-Qwen-1.5B 模型LoRA微调

lora微调的原理非常容易理解,相当于在原有的大模型的权值参数矩阵上增加了一个额外的外挂参数矩阵,这个外挂参数矩阵与原有的参数矩阵相比,参数规模要小很多,因此,训练外挂矩阵所需的算力要小的多。旁支,通过冻结原始模型参数的基础上,在 Attention 层中的 Query、Key、Value(QKV)等模块引入一个低秩旁路结构,具体包含两个低维度的矩阵A和矩阵B,微调过程中仅需要更新A、B 矩阵,从而显著减少训练参数量,降低计算与内存开销,同时保持接近全参数微调的性能表现。第三步实例化lora模型。

2025-07-31 13:33:43 535

原创 初识昇思+昇腾开发板+DeepSeek

第一步,烧录官方镜像到SD卡,这里需要区分香橙派的版本,目前有8-12T和20T的版本,不同的镜像具有不同的版本的cann和mindspore,对应于不同版本的香橙派,在这次学习中,给提供了20T的版本,20T的版本使用的cann是社区版 8.0.0beta1,mindspore可通过手工升级到最新的2.5.0版本,MindSpore NLP使用0.4分支。通过这次学习,初步了解了香橙派的使用,期待下一次的学习,能够在香橙派上运行一个可用的大模型。

2025-07-27 21:55:49 252

原创 昇思25天学习打卡营第6天 | 基于MobileNetv2的垃圾分类

课件写的比较清楚,但课件里的部分知识的链接都是链接到算法的原始学术文章上,这对于快速理解算法不是太友好,还要额外找相关的通俗中文资料。另外部分代码在平台上执行时,并不顺畅,爱出一些错误,不知道什么缘故,可能是用户太多导致算力不太够?

2024-07-11 23:46:56 189

原创 昇思25天学习打卡营第5天 | RNN实现情感分类

【代码】昇思25天学习打卡营第5天 | RNN实现情感分类。

2024-07-05 16:01:35 115

原创 【昇思25天学习打卡营第4天 | LSTM+CRF序列标注】

LSTM+CRF是文本实体标注最常用的模型,也是比较难理解的模型,今天用mindspore再次体验了一下全过程。Jupyter教程写的很清除,按照教程一步接一步的运行下来,基本对其原理有了较好的认知,其中的数学知识点也都给出了相应的进一步学习的链接。

2024-07-02 22:46:59 145

原创 【昇思25天学习打卡营第1天 | 快速入门】

发现模型在命名方面,采用了自己的命名特色,比如定义模型的模块连接采用“construct”方法,等等,对于习惯用pytorch,需要适应一阵子。跟着快速入门的教程第一次了解了利用MindSpore的API来快速实现一个简单的深度学习模型的整个过程。另外在使用昇腾体验方面,感觉还不错,希望华为的昇腾处理器能发展的更好!

2024-07-01 10:46:57 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除