- 博客(5)
- 收藏
- 关注
原创 DataWhale组队学习-LLM学习-Task03
推理大模型:DeepSeek-R1(DeepSeek V3-Base -> 冷启动SFT、推理RL(用于合成微调数据)-> RFT&SFT(Base模型微调)-> 全场景RL(SFT模型RL)-> DeepSeek R1)大模型:GPT-3(模型规模达到了1750亿参数、涌现出上下文学习能力)、CodeX(代码数据训练、推理与代码合成能力)、GPT-3.5、GPT-4(推理能力显著提升,建立可预测的训练框架、可支持多模态信息的大语言模型)推理大模型:o-Series(类似人类的“慢思考”过程)
2025-03-17 20:36:44
217
原创 DataWhale组队学习-LLM学习-Task02
在实现上,大语言模型的训练过程需要搭建一个全栈式的优化体系架构,能够支持大规模预训练数据的调度安排,建立起可迭代的模型性能改进闭环,加强效果反馈机制,从而能够快速、灵活地进行相关训练策略的调整。LLM局限性:首先,大模型中某些重要能力(如上下文学习能力)的涌现仍然缺乏形式化的理论解释,其次,大语言模型预训练需要大规模的计算资源支持,研究各种训练策略的效果并进行可重复性的消融实验的成本非常高昂。现有的大语言模型非常依赖于工程方法的优化(如数据清洗等),但是这些技术的理论支撑还比较缺乏。
2025-03-15 17:02:50
664
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅