
边读边解人工智能
文章平均质量分 96
余生H
I AM A I,身上的刺蜕了,只想静静欣赏世界的美。前端、Nodejs后端、容器化云原生、LLMs、CV
展开
-
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
利用人类偏好反馈可以有效地训练复杂的深度强化学习模型,且在某些任务上甚至能超过传统RL算法的效果。未来的研究可能会进一步提高反馈利用的效率,并探索更多没有明确奖励信号的实际应用场景。但是也需要警惕风险,不要轻易让大模型帮忙做决策,除非明确指出了要求其两面性的分析。原创 2024-10-24 14:39:54 · 1471 阅读 · 0 评论 -
解密OpenAI o1是如何让LLMs获得逻辑推理能力的 - CoT * RL
ChatGPT o1 : LLMs + RL*CoT(反思) -> 逻辑推理 (用时间换取准确性)翻译 2024-09-13 15:13:49 · 1373 阅读 · 0 评论