- 博客(3)
- 收藏
- 关注
原创 提示学习(Prompt-based Learning)和语境学习(ICL)有何区别?
提示学习通过设计特定模板(Prompt),将任务转化为预训练模型擅长的“填空”或“续写”形式,引导模型生成目标输出。该方法通过定义一个新的提示函数,使该模型能够执行小样本甚至零样本学习,以适应仅有少量标注或没有标注数据的新场景。例如:将文本分类任务改写为“这句话的情感是{positive/neutral/negative}”,让模型预测空白处的标签。语境学习也称上下文学习,其概念随着GPT-3 的诞生而被提出。
2025-03-14 16:20:32
1547
原创 大模型的有监督微调(SFT)与强化学习(RL)有何区别?
有监督微调(SFT)强化学习(RL)数据静态标注数据(输入-输出对)动态环境交互(状态-动作-奖励序列)反馈即时、明确(损失函数)延迟、稀疏(奖励信号)目标最小化预测误差最大化长期累积奖励探索无需探索,拟合现有数据需探索新策略以发现高奖励路径典型场景文本分类、机器翻译游戏AI、机器人控制、对话策略优化算法梯度下降、交叉熵损失Q-Learning、策略梯度、PPO。
2025-03-14 10:34:54
2893
原创 centos7.6 Failed to start LSB: Bring up/down networking一种可能的解决方法。
centos7.6 重启network报错:Failed to start LSB: Bring up/down networking按照网络搜索到的方法无果。一种可能的解决方法。
2022-10-21 16:28:25
991
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅