对VLM和VLA的一点感想

最近的项目进度使用LLaVA框架来实现VLA。对于大语言模型来说,数据集的构造以及Prompt的设计很重要。在LLaVA训练框架下,1. alignment需要尽可能的让text全面描述视觉特征,甚至于逐帧的描述。2. finetune时的prompt,也需要尽可能对当前的visual features进行描述。以显式的方式作为prompt提示给LLM,都有助于VLA实现连续控制的鲁棒性,提高推理的准确性。

除了扩大数据集提升泛化性以及RAG的引入,其实还可以引入一些修正机制,来避免推理错误的动作API执行。甚至可以在明显推理错误时,重新对当前scenario进行推理。

以上,

2025年4月3日凌晨2:30

03-17
### 关于VLA (Variable-Length Array) 变长数组(VLA, Variable-Length Array)是在C99标准中引入的一种特性,允许使用变量来动态指定数组的大小。这意味着可以利用运行时计算得出的结果作为数组维度的一部分[^1]。 #### 特性限制 - **数据存储位置**: 变长数组通常被分配在栈(stack)上而非静态区(data segment),因为其尺寸仅能在运行期确定。因此,全局或`static`类型的变量无法成为变长数组,因为在编译阶段就需要固定这些区域的空间需求[^3]。 - **生命周期约束**: VLA在其作用域内的长度保持不变;尽管初始化时依赖的是可变值(比如函数参数或其他表达式的求值结果),但在整个生存周期里它的规模不会改变[^2]。 - **安全性考量**: 使用变长数组存在潜在风险,尤其是当所需内存过大可能导致堆栈溢出等问题发生时。出于此考虑,在某些场景下可能会触发警告信息提示开发者谨慎处理此类情况[^5]。 ```c void example(int n){ int vla[n]; // 正确:n 是运行时期决定的数值 } ``` 上述代码片段展示了如何在一个局部范围内创建基于输入参数 `n` 的一维变长数组实例化过程[^4]。 --- ### 关于VLM (VideoLAN Manager) 相比之下,“VLM”代表的是另一种完全不同的技术领域术语——**VideoLAN Manager**(视频局域网管理器)。它是开源项目 VideoLAN(VLC media player背后的框架之一)中的一个重要组件,主要用于管理调度复杂的流媒体播放任务序列[^6]。 #### 功能概述 - 支持设置多个输入源并将其组合成单一输出流; - 提供脚本化的控制方式以便自动化操作流程; - 能够配置广播服务以及按需点播机制等高级功能选项。 由于涉及具体实现细节较少公开文档可供查阅,更多时候使用者通过命令行界面或者图形用户界面对应模块间接交互完成相应工作负载安排即可满足日常应用需求[^7]。 --- ### 总结对比 | 属性 | VLA (Variable Length Array) | VLM (VideoLAN Manager) | |--------------|------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------| | 领域 | 编程语言(C/C++) | 多媒体软件开发 | | 描述 | 运行时刻才能确定大小的一类特殊形式的数组 | VLC Media Player 中用于复杂流传输方案设计与实施的核心工具 | | 主要用途 | 实现灵活的数据结构定义 | 流媒体服务器搭建、直播推流转码优化 | 两者虽然名字缩写相似但实际毫无关联关系,分别隶属于计算机科学的不同分支方向研究范畴之内。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值