
论文阅读
文章平均质量分 77
shy2218
这个作者很懒,什么都没留下…
展开
-
Online_Video Moment Localization via Deep Cross-modal Hashing论文阅读3-代码分析
原创 2022-04-09 16:21:21 · 1418 阅读 · 0 评论 -
Online_Video Moment Localization via Deep Cross-modal Hashing论文阅读2
膨胀卷积Dilated Convolution是在标准卷积的Convolution map的基础上注入空洞,以此来增加感受野(reception field)。因此,Dilated Convolution在Standard Convolution的基础上又多了一个超参数(hyper-parameter)称之为膨胀率(dilation rate),该超参数指的是kerne的间隔数量。论文相关...原创 2022-04-06 20:11:06 · 309 阅读 · 0 评论 -
基于自然语言的多尺度二维时间相邻网络时刻定位论文阅读
本文任务检索由查询指定的视频最佳匹配时段。符号说明V:未修剪的视频xi代表视频中的帧lV代表视频的帧的总数S:查询序列si 代表单个单词ls代表单词的总数目M:最佳匹配时段 使用xi xj分别表示开始和结束帧对序列嵌入的语言表示提取查询语句的特征对于输入句子S中的每个单词Si通过word2vec模型输入其嵌入矢量dS是向量的长度2. 将单词嵌入输入三层双向LSTM网络3. 使用平均输出作为输入句子的特征表示。4. 提取的特征对查询语句的语言结构进行编码,从而描述感原创 2022-04-06 17:46:56 · 2396 阅读 · 0 评论 -
Online_Video Moment Localization via Deep Cross-modal Hashing论文阅读1
各类标志未修剪的视频集合代表第k个视频。对于第k个视频有多少个查询。对于一个视频的查询集。由人员标定的,第k个视频,针对查询集的所有目标片段。第j个目标片段的开始时间和结束时间。训练好的跨模态哈希网络的出的候选时刻集。由C3D产生的第k个视频的局部特征集合,Rx是VEN:采用C3D模型获取局部特征结合Bi-TCN模型,捕获对应的前上下文和后上下文信息来学习局部特征。上图是一个3层Bi-TCN,第k个视频的每个元素经过三层一维的膨胀卷积处理后,将两个方向的上下文进行原创 2022-04-02 21:41:00 · 278 阅读 · 0 评论 -
Dynamic Modality Interaction Modeling for Image-Text Retrieval论文阅读1--至3.2
图像-文本检索的动态模态交互建模难点:模态内推理:识别和理解视觉情态或语篇情态中的各种关系。—模态内跨模态对齐:将不同模态的关系相匹配。–模态间现有模式:严重依赖专家经验和经验反馈,缺乏灵活性现有模型是静态的,即所有样本都经过相同的固定计算流程,导致即使是简单的图像-文本对也会被复杂的交互模式处理。DIME本文开发:基于路由机制的新型模态交互建模网络四种类型的单元作为基本单元:探索不同层次的模态交互,以密集策略连接起来,构建路由空间。为了使模型具有路径探索能力:在每个单元中集成动原创 2022-04-02 21:29:29 · 500 阅读 · 0 评论