
大模型开发
文章平均质量分 95
Lament King
这个作者很懒,什么都没留下…
展开
-
大模型开发(六):LoRA项目——新媒体评论智能分类与信息抽取系统
微调里面,用的最多的是 LoRA 微调,这是一种参数高效微调的方式。这个项目我要完成两个工作,一是文本分类,二是信息抽取,分类我们前面已经讲过了,这里重点介绍以下信息抽取:信息抽取的目的是获得知识图谱(即实体和实体之间的关系),圆圈表示实体,连线表示关系。图中左边时预训练过程,这个我们稍后介绍数据处理的时候会介绍。所谓的LoRA微调,就是给预训练模型的线性层加一个旁支,比如原来是,现在变成了,这里的Δw就是旁支权重,训练的时候是冻结原模型中的参数,只更新旁支的参数,旁支是先降维,后升维。硬件环境如下原创 2025-03-19 21:38:47 · 1004 阅读 · 0 评论 -
大模型开发(五):P-Tuning项目——新零售决策评价系统(下)
上篇文章我们介绍了使用PET方式微调BERT模型,PET属于提示词微调的一种,另一种比较常见的提示词微调是P-Tuning,我们今天在相同的项目上面用P-Tuning看看。原创 2025-03-06 09:47:06 · 575 阅读 · 0 评论 -
大模型开发(四):PET项目——新零售决策评价系统(上)
上篇文章我们介绍了使用全量微调构建医疗问诊机器人,比较常用的微调还有提示词微调(Prompt微调)、PEFT,而Prompt微调用的比较多有PET和P-Tuning,而我们今天介绍的项目,就是使用PET的方式微调大模型。PET的全称是Pattern-Exploiting Training,主要用来做文本分类(Prompt微调基本都是文本分两类),它是通过构建提示词模板(硬模版,需要我们自己指定模板)的方式,将下游任务转化为一个完形填空任务,这样就可以用BERT的MLM模型来进行预测了。智能推荐系统是AI技术原创 2025-03-04 16:46:45 · 925 阅读 · 0 评论 -
大模型开发(三):全量微调项目——基于GPT2 搭建医疗问诊机器人
上一篇文章讲到,大模型都是基于过去的经验数据进行训练完成,它没有学过企业私有的知识,为了处理私有知识,一般可以使用私有知识对模型进行微调,也可以建立本地知识库,然后利用RAG技术实现。1.如果企业里有算力,私有数据量较大,那优先可以微调,时间成本要高;2.如果没有高的算力,或者数据量小,可以使用RAG;3.另外如果算力充足,数据量也大,可以实现RAG和微调结合。总体来讲,RAG技术比较成熟,也比较容易实现,但效果不如微调。原创 2025-02-26 14:02:57 · 619 阅读 · 0 评论 -
大模型开发(二):RAG项目——物流信息咨询问答系统
上篇文章,我们使用的是百度智能云平台(也叫千帆平台)上已经部署好的模型,对一个企业来说,你把模型放到别人的服务器上,会有一定的信息安全隐患,使得自己“受制于人”;另一方面,很多业务场景的生产环境都是隔离,也就是没有联网,这种情况下你很难用类似的公共云服务来进行推理。因此,在本地或者私有云上进行开发也是大模型开发的一项重要能力。本文以“物流行业信息咨询问答系统”这个项目为载体,介绍一下RAG和私有云开发。原创 2025-02-21 10:28:10 · 933 阅读 · 0 评论 -
大模型开发(一):LangChain的使用
进入2025年,大模型开发已经成为IT行业中最热门的赛道,本系列文章将介绍大模型的开发,在此之前,最好具备一些大模型的相关知识,比如知道提示词工程有哪些、提示词微调有哪些,什么是Agents,什么是Function Call等。LangChain 由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架。原创 2025-02-19 18:19:13 · 1176 阅读 · 0 评论