关于预训练&后训练、LLM和视频大模型相关学习记录

最新推荐文章于 2025-10-08 16:23:13 发布

原创最新推荐文章于 2025-10-08 16:23:13 发布 · 325 阅读

CC 4.0 BY-SA版权

文章标签：

Pre-training与Post-training
预训练主要是“模仿”，而后训练则是“创造”
预训练对数据质量的要求不高，而后训练对数据质量的要求较高
预训练：模型通过预测海量互联网文本数据中的下一个 token，学习语言的通用规律，得到基础模型。
后训练：在预训练模型基础上，进行指令微调、偏好微调（RLHF）和强化微调等，使模型具备更符合人类期望的行为。

语言大模型与视频大模型
对于LLM而言，预训练基本到顶，原因之一就是开源模型的性能已经非常接近闭源模型的性能
对于视频模型的预训练而言，仍在发展的初级阶段，目前视频大模型的参数量仍停留在百亿（几十B）的水平
LLM可用的数据已基本耗尽，但是视频大模型可用的数据仍非常多；视频数据相比文本数据太大，导致在现有算力条件下，一方面视频大模型的参数量难以达到LLM的量级，同时训练使用的数据量也不能有则尽用
LLM更偏重于概率，而视频大模型则更需要关注对物理规律的理解

具身智能
难点在于大部分情况属于 extrapolation（外推）情形，即训练数据未覆盖到的场景
与外推对应的是插值（Interpolation），即测试数据在训练数据分布范围内

LLM分为指令模型和推理模型两种

学习原文：https://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247496067&idx=1&sn=e8e0a317dea0f9a53f040e455ba7da43&scene=21#wechat_redirect
https://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247514014&idx=1&sn=9741f66499dae7ca6eee728828cf6dc1&scene=21#wechat_redirect