- 博客(1)
- 收藏
- 关注
原创 基于LLM的视频理解总结
例如,像 ChatGPT 这样的LLM可以通过调用视觉模型的API,处理视频中的视觉信息并生成相应的输出。未来研究需要进一步增强模型对视频中的时间和空间关系的捕捉能力,特别是在长时序视频中的表现。未来研究可以探索类似于记忆网络的机制,帮助模型保留视频中的关键信息,增强长视频的处理能力。此外,新的评估指标应更全面地衡量 Vid-LLMs 在各种视频理解任务中的表现,以推动模型的进一步发展。插入适配器直接嵌入到 LLM 的内部层中,微调时,更新这些插入适配器的参数,而 LLM 的核心参数保持不变。
2024-10-17 15:18:17
1480
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人