- 博客(9)
- 收藏
- 关注
原创 为什么基于强化学习的LLM对齐往往比单纯用SFT的方法更有效
(1): SFT 的目标是让模型输出的概率分布尽可能接近“专家示范”。它本质上是在学习已有的“好”答案。(2): SFT 的效果高度依赖于示范数据的质量和覆盖范围。结果: SFT 模型可以学会生成语法正确、相关、符合格式的回答,但它可能:生成冗长、包含不必要细节的回答(如果示范数据如此)。缺乏安全意识(如果示范数据未覆盖有害请求)。无法在多个有效回答中选择最符合人类微妙期望的那个。对分布外请求或新颖情况处理不佳,因为它只模仿了见过的模式。
2025-07-17 11:06:32
715
原创 10分钟读懂stable diffusion的核心训练与推理理念
学习stable diffusion之前,需要先掌握CLIP和VAE两个经典的多模态预训练模型。这两个模型的核心思想纯深度学习风格,相对stable diffusion来说简单很多,以后有机会再写,这里默认已经了解,我们直接进入stable diffusion的学习。stable diffusion为什么我感觉要更复杂呢?因为它的核心思想是基于机器学习的扩散模型的。但凡涉及机器学习思想的模型都难顶一些,强化学习是这样,扩散模型也是这样。
2025-07-12 12:20:18
737
1
原创 大模型到底在对齐什么?为什么需要对齐
大模型对齐指的是将大模型的行为规范与人类群体的价值观、意图及场景规范保持一致的过程。本质是在模型能力与人类期望之间建立可靠映射。所以,是大模型是在跟人类的一些“偏好”对齐。为什么需要对齐?显而易见,刚训练出来的大模型落地解决问题的时候不符合人类预期,所以需要对齐。
2025-07-09 21:41:37
525
原创 bert与Roberta模型的区别
BERTRoberta模型结构一样都是transformer的encoder部分一样都是transformer的encoder部分数据集16G160G训练步长125K(Base模型)-500K步(Large模型)500K训练batchsize2562K, 8K, 甚至32K)训练目标文本编码字符级别BPE,有OOV的问题字节级别BPE,没有OOV的问题动态掩码否。BERT在数据预处理阶段为每个训练实例静态地生成一次Masked LM任务的掩码模式。
2025-07-08 12:10:16
718
原创 DeepSeek从V3到R1的迭代过程简述
这些数据与之前的高质量 CoT 数据合并后,用于进行最后一次的强化学习。checkpoint-1:我们用了 R1 Zero 生成了右侧那个高质量的 SFT 数据,也就是 cold start 数据,这些数据由 R1 Zero 输出的高质量带有推理过程的数据,作为 cold start 数据重新去 SFT 了 Deepseek V3 base 模型。DeepSeek-V3到DeepSeek-R1-Zero,只用了三步:一个基础的训练模板,一个简单的激励模型(纯强化学习策略),以及 GRPO 策略。
2025-07-08 11:47:57
948
原创 Dify+华为昇腾服务器配置embedding与rerank模型服务
现在基于RAG的大模型服务太火了。做RAG除了LLM以外,就离不开embedding和rerank模型,因此官方昇腾社区已经更新了相关镜像,发现容器不能正常启动,docker ps -a显示容器exited,手动启动也没有办法成功。
2025-01-15 14:17:14
4131
5
原创 Dify+华为昇腾服务器ARM架构部署环境准备
(1) 内网服务器与互联网物理隔离(2) 华为昇腾服务器、麒麟sp2操作系统、aarch64、Linux环境、Docker 26.0.0(3) dify跨架构部署
2025-01-15 14:12:05
3763
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人