跨模态检索之文本视频检索（Text to Clip）（2）

最新推荐文章于 2025-04-08 11:06:53 发布

扑了个猫

最新推荐文章于 2025-04-08 11:06:53 发布

阅读量1.6k

点赞数 1

分类专栏：文献阅读文章标签：机器学习人工智能深度学习计算机视觉神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44390691/article/details/105182412

版权

《Cross-Modal and Hierarchical Modeling of Video and Text》（2018 ECCV）

这篇文章主要介绍了一个叫做分层序列嵌入（Hierarchical Sequence Embedding, HSE）的通用模型，其作用是对不同模态的数据进行分层建模并利用模态间的对应关系来学习模型参数。文章以文本和视频之间的检索为例进行介绍，并在大型数据集上做了实验。

HSE是在已有的FSE（Flat Sequence Embedding）的基础上改进后的模型。FSE的模型如下：
在这里插入图片描述
FSE是一种原始的seq2seq方法，它不考虑视频或文本中的层次结构，因此称为平面序列嵌入。如下式所示。

然后得到相似度：

但是FSE的一个明显的缺陷在于其LSTM层需要大量的单元才能很好地对视频帧或者单词进行建模，因此优化和学习都会比较困难。而HSE在FSE的基础上添加了一些组件，从而可以从多个粒度来考虑视频和文本之间的对应关系，较好地利用数据中的层次结构来减

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。