Sora结构猜测

兔兔爱学习兔兔爱学习

于 2025-04-03 17:38:57 发布

阅读量345

点赞数 10

分类专栏：大模型文章标签：人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44245188/article/details/146984653

版权

大模型专栏收录该内容

85 篇文章

订阅专栏

方案：VAE Encoder（视频压缩） -> Transform Diffusion （从视频数据中学习分布，并根据条件生成新视频） -> VAE Decoder （视频解压缩）

从博客出发，经过学术Survey，可以推断出全貌。一句话结论：

Sora是采用了Meta的 DiT (2022.12) 框架，
融合了Google的 MAGViT (2022.12) 的Video Tokenize方案，
借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率，
使用OpenAI DALL-E 3 (2023.09) 里的图像描述方案生成了高质量Video Caption（视频描述），即文本-视频对，实现了准确的条件生成。

百川2

Reward Model:

Prompt多样性：构造了一个200+细分类目的数据体系，尽可能覆盖用户需求，同时提升每类prompt多样性，从而提升泛化能力
Response多样性：用不同尺寸和阶段的百川模型生成答案，不使用其他开源模型（经验证无法提升RM准确率）

RM:

设计了一个三层分类系统全面覆盖所有类型的用户需求，包括6个主要类别、30个二级类别、200多个三级类别。

在奖励模型训练时，需要保证每个类别内的数据应该有足够的多样性，以确保奖励模型能够有更好地泛化性。

并且奖励数据中结果需要由Baichuan2模型生成，以确保数据分布的统一。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。