大模型使用-提示学习-基础提示

一、基础提示简介

1、常用提示方法
  • 上下文学习:ICL(In-context Learning)任务描述与问答示例以自然语言形式加入到提示中
  • 思维链提示:CoT(Chain-of-Thought),是一种增强技术,将思维推理过程加入到提示中,可能增强复杂任务的解决效果
2、提示工程

针对特定任务设计的任务提示内容

二、基础提示

1、关键要素
  • 任务描述:描述大模型应该遵循的具体指令

任务描述示例:

  • 知识问答的任务描述:请使用所提供的以三个井号(###)分隔的文章回答问题。如果在文章中找不到答案,请回答“无法找到答案。”
  • 代码补全的任务描述:你是一名程序员。给你一个代码片段,你的目标是完成这段代码,确保它能实现描述的功能。
  • 对话推荐的任务描述:推荐10 个符合用户偏好的商品。推荐列表可以包含对话框之前提到的商品。推荐列表的格式为:商品ID 标题(年份)。请勿在推荐列表中提及商品标题以外的任何内容。
  • 输入数据:输入数据如果以代码形式呈现是最好的

输入数据举例:

  • 线性化后的表格数据:
    学号姓名成绩# 01278 张三89.0 # 03813 李四92.5 # 06714 王五79.0
  • 代码格式的图数据:
    Graph[name=“Knowledge-Graph”]{
    entity_list=[“James Cameron”, “Ontario”, …],
    triple_list=[(“James Cameron” -> “Ontario”)[relation=“born in”], …],
    }
  • 上下文信息:可以在提示内容中增加示例问答对,让大模型更加理解提示内容,更好的总结回复内容

上下文信息示例:

  • 示例问题:罗杰有5 个网球,他又买了2 罐网球,每罐有3 个网球。他现在有多少个网球?
  • 示例回答:罗杰一开始有5 个球,2 罐每罐3 个网球就是6 个网球。5 + 6 = 11。答案是11。
  • 用户输入:袋子里有16 个球,其中一半是高尔夫球,并且所有高尔夫球中有一半是蓝色的球。请问有多少个蓝色高尔夫球?
  • 模型输出:袋子里有16 个球,其中一半是高尔夫球。因此有16 / 2 = 8 个高尔夫球。一半的高尔夫球是蓝色的。因此有8 / 2 = 4 个蓝色高尔夫球。答案是4。
  • 提示策略:针对不同大模型设计合适提示策略,如果任务流程较长,建议分解成多轮对话;另外可以模拟大模型训练阶段的语言表达方式

提示策略示例:

  • 用户输入:你是一名旅行向导。我会把我的位置告诉你,你需要向我推荐附近的旅游景点。我的第一个请求是“我在伊斯坦布尔,我只想参观博物馆”。
  • 模型回复:当然,以下是一些您可以考虑参观的博物馆:
  1. 伊斯坦布尔考古博物馆:这个博物馆位于苏丹艾哈迈德广场,是土耳其最重要的考古博物馆之一。它展示了来自不同历史时期的珍贵文物,包括古代近东、古希腊和古罗马的艺术品。
  2. 伊斯坦布尔现代艺术博物馆:位于博斯普鲁斯海峡畔的卡拉库埃斯梅斯地区,这个博物馆致力于展示当代土耳其和国际艺术。它拥有丰富的永久收藏和临时展览,涵盖绘画、雕塑、摄影、视频艺术和装置艺术等多个领域。
  3. 圣索菲亚博物馆:这座博物馆位于伊斯坦布尔历史中心的圣索菲亚大教堂内,展示了拜占庭和奥斯曼帝国时期的艺术和文物。您可以在这里欣赏到壮丽的拜占庭建筑和壁画,以及众多的历史文物。
2、设计原则
  • 清晰的任务表达
  • 分解为简单且详细的子任务
  • 提供少样本示例(即问答对示例)
  • 采用模型有好的提示格式:模拟大模型训练数据的语言表达方式,重点部分可以使用特殊符号标记

二、自动优化提示

1、简介

大模型不太常用

2、离散提示优化
  • 基于梯度的方法:通过梯度更新技术以最大化模型的似然分数来优化离散提示的搜索过程
  • 基于强化学习的方法:可以将预训练语言模型作为强化学习中的策略网络并依次生成提示中的词元,策略网络可以获得任务特定的奖励信号,该奖励信号可通过强化学习算法用于策略网络参数的训练,基于训练好的策略网络,可以采用贪心搜索策略来生成任务提示中的每个词元。
  • 基于编辑的方法:通过多次对提示的修改迭代,直至达到最大修改次数或模型最佳性能
  • 基于大模型的方法:通过大模型优化提示内容
3、连续提示优化
  • 概念:连续提示由一组连续空间中的嵌入向量组成,可以根据下游任务的损失直接通过梯度更新进行优化
  • 实际方法:
    • 监督学习:将连续提示向量视为可训练的模型参数,基于下游任务数据,通过最小化交叉熵损失来优化连续提示
    • 迁移学习:有监督学习方法通常需要充足的训练数据来学习最优的任务提示,很难在数据稀缺场景下获得较好的模型性能。为了解决这个问题,基于提示的迁移学习方法首先为若干个具有代表性的源任务学习一个所有任务共享的连续提示,然后使用该提示初始化目标任务的提示
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值