WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION

使用RingAttention构建大规模视频语言模型
828 篇文章

已下架不支持订阅

本文介绍了一种在长视频和语言序列上训练神经网络的方法,通过RingAttention技术处理百万长度序列,克服内存限制和计算复杂性,构建最大上下文大小的Transformer。在大规模数据集上训练的7B参数模型能够理解长视频和语言,为长视频理解设定新标准,开源实现包括优化的RingAttention、掩码序列打包等技术。

本文是LLM系列文章,针对《WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION》的翻译。

摘要

目前的语言模型无法理解世界上不容易用语言描述的方面,并且难以处理复杂、冗长的任务。视频序列提供了语言和静态图像中没有的有价值的时间信息,这使得它们对与语言的联合建模具有吸引力。这样的模型可以发展对人类文本知识和物理世界的理解,从而实现更广泛的人工智能能力来帮助人类。然而,由于内存限制、计算复杂性和数据集有限,从数百万视频和语言序列的标记中学习带来了挑战。为了应对这些挑战,我们策划了一个由不同视频和书籍组成的大型数据集,利用RingAttention技术对长序列进行可伸缩训练,并将上下文大小从4K逐渐增加到1Mtoken。本文的贡献如下:
(a) 最大上下文大小的神经网络:我们在长视频和语言序列上训练最大的上下文大小Transformer之一,在困难的检索任务和长视频理解中设定新的基准。(b) 克服视觉语言训练挑战的解决方案,包括使用掩码序列打包来混合不同的序列长度,损失加权来平衡语言和视觉,以及为长序列聊天建模生成的QA数据集。(c) 具有RingAttention、掩码序列打包和其他关键功能的高度优化实现,用于在数百万长度的多模式序列上进行训练。(d) 完全开源的7B参数模型系列,能够处理超过1Mtoken的长文本文档(LWM text,LWM text Chat)和视频(LWM,LWM Chat)。这项工作为在长视频和语言的大规模数据集上进行训练铺平了道路,以发展对人类知识和多模态世界的理解,以及更广泛的能力。

1 引言

2 概要

3 第一阶段:学习长上下文语言模型

已下架不支持订阅

### 国家标准(GB/T 7714)下的参考文献格式 论文 *π0.5: A Vision-Language-Action Model With Open-World Generalization* 若发表于国际会议,应采用会议论文的标准引文格式。根据 GB/T 7714 标准,其格式应包括作者、论文标题、会议名称、出版地、出版社及年份等信息。 > 作者列表. A Vision-Language-Action Model With Open-World Generalization[C]//Proceedings of the International Conference on Robotics and Automation. [出版地]: IEEE, 2025. 该格式中,“C”表示文献类型为会议论文,适用于大多数国际会议发表的论文引用。若论文尚未正式发表或仅以预印本形式发布于 OpenReview 等平台,应注明其电子出版形式,并提供可用的访问链接或 DOI(如有)。 ### 引文格式的生成方式 若使用文献管理工具(如 Zotero、EndNote)进行引用,可采用如下 BibTeX 格式进行导入: ```bibtex @inproceedings{pi0_5_vla_openworld, author = {Author1, A. and Author2, B. and Author3, C.}, title = {A Vision-Language-Action Model With Open-World Generalization}, booktitle = {Proceedings of the International Conference on Robotics and Automation}, year = {2025}, publisher = {IEEE} } ``` 该格式支持在 LaTeX 或 Word 文档中自动匹配 GB/T 7714 引文样式,确保引用格式的一致性和规范性。 ### 未正式发表论文的处理方式 若论文尚未正式发表,但已发布于预印本平台(如 arXiv、OpenReview),应注明平台名称及访问方式: > 作者列表. A Vision-Language-Action Model With Open-World Generalization[EB/OL]. OpenReview, 2025 [2025-04-05]. https://openreview.net/forum?id=xxxxx. 其中,“EB/OL”表示电子文献/在线文献,适用于网络资源的引用[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值