关于预训练&后训练、LLM和视频大模型相关学习记录

Pre-training与Post-training
预训练主要是“模仿”,而后训练则是“创造”
预训练对数据质量的要求不高,而后训练对数据质量的要求较高
预训练:模型通过预测海量互联网文本数据中的下一个 token,学习语言的通用规律,得到基础模型。
后训练:在预训练模型基础上,进行指令微调、偏好微调(RLHF)和强化微调等,使模型具备更符合人类期望的行为。

语言大模型与视频大模型
对于LLM而言,预训练基本到顶,原因之一就是开源模型的性能已经非常接近闭源模型的性能
对于视频模型的预训练而言,仍在发展的初级阶段,目前视频大模型的参数量仍停留在百亿(几十B)的水平
LLM可用的数据已基本耗尽,但是视频大模型可用的数据仍非常多;视频数据相比文本数据太大,导致在现有算力条件下,一方面视频大模型的参数量难以达到LLM的量级,同时训练使用的数据量也不能有则尽用
LLM更偏重于概率,而视频大模型则更需要关注对物理规律的理解

具身智能
难点在于大部分情况属于 extrapolation(外推)情形,即训练数据未覆盖到的场景
与外推对应的是插值(Interpolation),即测试数据在训练数据分布范围内

LLM分为指令模型和推理模型两种

学习原文:https://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247496067&idx=1&sn=e8e0a317dea0f9a53f040e455ba7da43&scene=21#wechat_redirect
https://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247514014&idx=1&sn=9741f66499dae7ca6eee728828cf6dc1&scene=21#wechat_redirect

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀桦坞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值