Anthropics HH-RLHF 项目推荐
1. 项目基础介绍及编程语言
Anthropics HH-RLHF(Human preference data for "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback")是一个开源项目,旨在提供用于训练有助且无害的人工智能助手的偏好数据。该项目由Anthropic团队创建并维护,主要使用Python编程语言进行开发。
2. 项目核心功能
项目的核心功能是提供两组数据集:
-
帮助性与无害性偏好数据:这些数据包括对文本的帮助性和无害性的评价,用于训练强化学习模型。数据格式简单,每个JSONL文件的行包含一对文本,一个为“选中”文本,另一个为“拒绝”文本。这些数据分为训练/测试集,并分为三个阶段:基于基础模型(上下文精炼的52B语言模型)、通过拒绝采样(主要是最佳16采样)对一个早期偏好模型进行采样,以及在我们的迭代“在线”过程中采样的数据。
-
红队对抗数据:这些数据集描述了人类对手(红队成员)与AI助手之间的对话记录,并包括对AI助手无害性的评分、模型参数数量、模型类型、红队成员的成功程度评分、任务描述及其无害性评分等。
3. 项目最近更新的功能
最近更新的功能主要包括:
- 对现有数据集的进一步完善和扩展,提高了数据的质量和多样性。
- 对项目文档的更新,使得用户更容易理解数据集的收集过程和使用方式。
- 对项目结构的优化,使得数据访问和数据处理更加高效。
请注意,这些更新都是为了提升数据集的可用性,并进一步推动强化学习在训练有用且无害AI助手方面的应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考