自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 提示学习(Prompt-based Learning)和语境学习(ICL)有何区别?

提示学习通过设计特定模板(Prompt),将任务转化为预训练模型擅长的“填空”或“续写”形式,引导模型生成目标输出。该方法通过定义一个新的提示函数,使该模型能够执行小样本甚至零样本学习,以适应仅有少量标注或没有标注数据的新场景。例如:将文本分类任务改写为“这句话的情感是{positive/neutral/negative}”,让模型预测空白处的标签。语境学习也称上下文学习,其概念随着GPT-3 的诞生而被提出。

2025-03-14 16:20:32 1547

原创 大模型的有监督微调(SFT)与强化学习(RL)有何区别?

有监督微调(SFT)强化学习(RL)数据静态标注数据(输入-输出对)动态环境交互(状态-动作-奖励序列)反馈即时、明确(损失函数)延迟、稀疏(奖励信号)目标最小化预测误差最大化长期累积奖励探索无需探索,拟合现有数据需探索新策略以发现高奖励路径典型场景文本分类、机器翻译游戏AI、机器人控制、对话策略优化算法梯度下降、交叉熵损失Q-Learning、策略梯度、PPO。

2025-03-14 10:34:54 2893

原创 centos7.6 Failed to start LSB: Bring up/down networking一种可能的解决方法。

centos7.6 重启network报错:Failed to start LSB: Bring up/down networking按照网络搜索到的方法无果。一种可能的解决方法。

2022-10-21 16:28:25 991 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除