如何设计 Prompt 以充分发挥大语言模型(LLM)的性能?

当然可以,这段内容我可以为你改成更口语化、亲切易懂的风格,适合用作讲稿、分享文章或者面向非专业开发者的教学材料。下面是润色后的版本:


三、务必牢记:语言模型会“一本正经地胡说八道”

在开发基于大语言模型的应用时,有一个千万不能忽略的大坑:那就是——它有时候会“编造”知识,听起来特别真,但其实是假的。

这类情况,我们一般叫它“幻觉(Hallucination)”。

说白了,模型并不像人类那样真正“知道”某件事,它只是通过概率预测什么内容应该出现。所以,即使它“看起来懂”,其实是在“猜”。如果你问它一个并不存在的东西,它可能不会说“不知道”,反而会一本正经地瞎编,还编得挺像那么回事。


举个例子你就懂了:

我们问它:“告诉我华为公司生产的 GT Watch 运动手表的相关信息。”

注意,这个品牌是存在的,但这个“GT Watch”运动款其实根本不存在。

结果模型是怎么回答的呢?你看👇:

华为GT Watch是一款智能手表,具有精致的外观、1.39英寸AMOLED高清屏、多种运动监测功能、血氧和心率监测、蓝牙连接、消息推送、长续航,还支持NFC和音乐播放……

你是不是都快信了?是不是感觉这手表还挺好用?

但实际上,这些都是模型“瞎编”的。没有真实的产品信息作支撑,它就是根据“GT Watch”几个词+华为这个品牌的惯常风格“猜”出这么一段话来。

这,就是典型的幻觉现象。


那怎么办?模型这么不靠谱还能用吗?

当然能用,但开发者一定要有这个意识:模型有时候是“装懂”,不是“真懂”。

我们可以通过一些技巧尽量减少这种问题的出现,比如:

✅ 提示词设计更严谨:

  • 不直接问“请介绍”,而是换成:

    “请引用以下文本中的原话进行总结”

  • 或者这样:

    “请基于以下资料回答,未提及的内容请说明‘资料中未包含’”

这样做的好处是:让模型“有所依赖”地回答,而不是自己随便发挥。


幻觉问题目前有没有解决方案?

目前像 OpenAI、Google 等大公司都在研究如何减少幻觉。技术层面有一些改进,比如:

  • 引入“引用追踪”,输出要能“回溯出处”;

  • 加强检索式模型(比如 RAG)配合知识库;

  • 微调训练数据,强化“拒绝回答”能力。

但说实话,幻觉问题短时间内还没法彻底解决。所以在它还“爱胡说”的阶段,我们做应用的开发者就更要“小心使用”。


小贴士:反斜杠 \ 是为了好看,不是换行符

你可能注意到:我们在代码块或文字中用了很多反斜杠 \,主要是为了让文本在小屏设备上好看些,并不是代表换行

如果你用的是 GPT-3,它对换行(\n)没啥反应。但其他模型(特别是没训练太好的),换行可能会影响理解效果,所以你在开发时要特别注意 Prompt 格式的控制。


最后总结一下:

幻觉问题很“迷”,但更“迷”的是你没意识到它存在。

所以:

  • 开发者一定要有风险意识;

  • 设计 Prompt 时尽量引用原始资料;

  • 对模型输出要“信中有疑”,能查就查,不能全信;

  • 未来语言模型的一个重要方向,就是“能说就能证”。

幻觉这事,说到底就是一句话:你得知道模型什么时候在“认真回答”,什么时候在“编故事”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张.舞蹈家.陆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值