ChatGPT: Optimizing Language Models for Dialogue

最新推荐文章于 2025-12-15 20:50:53 发布

翻译最新推荐文章于 2025-12-15 20:50:53 发布 · 3.2k 阅读

·

2

·

文章标签：

#chatgpt #语言模型 #人工智能

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

51 篇文章

订阅专栏

33 篇文章

订阅专栏

本文介绍了ChatGPT模型，它是InstructGPT的兄弟模型，专为对话设计。ChatGPT通过改进的人类反馈强化学习（RLHF）进行训练，能够理解和生成复杂的对话。基于GPT-3.5系列，ChatGPT支持编写程序。尽管如此，模型仍存在局限性，如可能产生不准确的回答等。

部署运行你感兴趣的模型镜像

1.简介

最近ChatGPT很好，本文根据https://openai.com/blog/chatgpt/翻译总结的。

ChatGPT: Optimizing Language Models for Dialogue。如标题，ChatGPT为了对话使用的。

ChatGPT是InstructGPT的兄弟模型，它被训练为以提示prompt的方式遵循指令并提供详细的响应。

2.方法

采用同InstructGPT一样的训练方法，使用Reinforcement Learning from Human Feedback (RLHF)。也是三步，如下图。ChatGPT和InstructGPT不同的，只是数据收集上有轻微的不同。人类AI训练者在对话中扮演两个角色，用户和AI助手。

InstructGPT的介绍详见：https://blog.youkuaiyun.com/zephyr_wang/article/details/128333153。
在这里插入图片描述

ChatGPT基于GPT-3.5 系列微调。
GPT-3.5 系列模型如下，可以看到有code模型，所以支持写程序：
在这里插入图片描述

3.ChatGPT不足

1)ChatGPT有时会写出看似合理但不正确或荒谬的答案。
2)ChatGPT对输入短语很敏感。例如，给定一个问题的一个短语，模型可以声称不知道答案，但稍微重新措辞，可以正确回答。
3)该模型通常过于冗长，过度使用某些短语。
4)理想情况下，当用户提供不明确的查询时，模型会提出明确的问题。相反，我们当前的模型通常猜测用户的意图。
5)虽然我们努力让模型拒绝不适当的请求，但它有时会响应有害的指令或表现出有偏见的行为。

4.使用

可惜OpenAI不支持在中国使用。

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。