Here_violet-优快云博客

原创提示学习（Prompt-based Learning）和语境学习（ICL）有何区别？

提示学习通过设计特定模板（Prompt），将任务转化为预训练模型擅长的“填空”或“续写”形式，引导模型生成目标输出。该方法通过定义一个新的提示函数，使该模型能够执行小样本甚至零样本学习，以适应仅有少量标注或没有标注数据的新场景。例如：将文本分类任务改写为“这句话的情感是{positive/neutral/negative}”，让模型预测空白处的标签。语境学习也称上下文学习，其概念随着GPT-3 的诞生而被提出。

2025-03-14 16:20:32 1547

原创大模型的有监督微调(SFT)与强化学习(RL)有何区别？

有监督微调（SFT）强化学习（RL）数据静态标注数据（输入-输出对）动态环境交互（状态-动作-奖励序列）反馈即时、明确（损失函数）延迟、稀疏（奖励信号）目标最小化预测误差最大化长期累积奖励探索无需探索，拟合现有数据需探索新策略以发现高奖励路径典型场景文本分类、机器翻译游戏AI、机器人控制、对话策略优化算法梯度下降、交叉熵损失Q-Learning、策略梯度、PPO。

2025-03-14 10:34:54 2893

原创 centos7.6 Failed to start LSB: Bring up/down networking一种可能的解决方法。

centos7.6 重启network报错：Failed to start LSB: Bring up/down networking按照网络搜索到的方法无果。一种可能的解决方法。

2022-10-21 16:28:25 991 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 提示学习（Prompt-based Learning）和语境学习（ICL）有何区别？

原创 大模型的有监督微调(SFT)与强化学习(RL)有何区别？

原创 centos7.6 Failed to start LSB: Bring up/down networking一种可能的解决方法。

空空如也

空空如也

原创提示学习（Prompt-based Learning）和语境学习（ICL）有何区别？

原创大模型的有监督微调(SFT)与强化学习(RL)有何区别？