Datawhale LLM-universe Task5

这节课是对LLM应用进行系统评估和优化
系统评估的主要流程如图
在这里插入图片描述
现在我们从头分析一下如何对LLM应用进行系统评估和优化
在这里插入图片描述
这里我用的是Zhipu的模型
量化评估 说白了就是对LLM的输出进行打分, 这里使用两个提示词得到不同的输出, 观察输出结果哪个更靠谱
在这里插入图片描述
下面这里自定义了一个评分公式, 可以对输出结果进行打分,后面的多维评估也是这个的延申
另外一种方法, 就是根据输出指定客观题, 再打分
在这里插入图片描述
另外一种比较靠谱的是计算答案的相似度,这里用NLTK的bleu
在这里插入图片描述
还有就是用靠谱的大模型做评估
第二部分就是针对badcase优化prompt,以提升模型的输出能力,我们可以自己定义badcase
为了避免大模型的幻觉, 我们可以让大模型附上信息来源
在这里插入图片描述
最后附上一个langchain的思维导图
在这里插入图片描述

### 大型语言模型生态系统 #### 构成要素 大型语言模型生态系统的构成要素主要包括数据源、预训练框架、微调工具集以及下游应用接口。这些组件共同作用,使得LLM能够处理各种自然语言任务并提供广泛的服务。 - **数据源**:高质量的数据对于构建有效的LLM至关重要。这不仅限于文本本身还包括元数据和其他辅助信息。通过多样化的数据输入,可以增强模型的理解能力和表达能力[^1]。 - **预训练框架**:这是指用于开发和优化神经网络架构的技术栈,如TensorFlow或PyTorch等平台支持下的Transformer结构。它们允许研究人员快速迭代实验设计,并利用分布式计算资源加速训练过程[^2]。 - **微调工具集**:为了使通用的语言理解技能适应特定领域的需求,通常需要针对目标场景调整权重参数。为此目的而创建的各种API和服务简化了这一流程,降低了进入门槛的同时提高了效率[^3]。 - **下游应用场景**:最终用户交互界面构成了整个链条的最后一环;无论是聊天机器人还是自动摘要生成器,在实际部署之前都需要经过严格的测试来验证性能指标是否满足预期标准。 ```python import transformers as trfms from datasets import load_dataset model_name = "bert-base-uncased" tokenizer = trfms.BertTokenizer.from_pretrained(model_name) dataset = load_dataset('imdb') ``` #### 半参数化方法的优势 相比于完全依赖内部参数存储世界知识的传统做法,引入外部记忆机制后的混合模式能够在保持灵活性的基础上显著提升检索精度与响应速度。具体来说就是把静态的记忆单元替换成了动态查询接口,从而更好地应对长尾分布特征带来的挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值