
Ai论文笔记
文章平均质量分 88
Ai论文笔记
7个七
这个作者很懒,什么都没留下…
展开
-
Attentive Moment Retrieval in Videos论文笔记
设计了一种记忆注意机制来强调查询中提到的视觉特征,并同时合并它们的上下文,在DiDeMo and TACoS两个数据集表现的比较好。原创 2023-06-19 11:21:09 · 1363 阅读 · 1 评论 -
Cross-modal Moment Localization in Videos论文笔记
一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。原创 2023-06-14 18:46:35 · 1840 阅读 · 1 评论 -
TALL论文笔记
问题描述:通过语言来对未修剪视频中动作的时间定位当前的需要:适当的文本和视频表示的设计,以允许动作和语言查询的跨模态匹配能够从有限的尺寸的滑动窗口精确地定位动作所给定的特征。贡献:提出了一种新的跨模态时间回归定位器(CTRL),以联合建模候选剪辑的文本查询和视频剪辑、输出对齐分数和动作边界回归结果。原创 2023-06-12 16:08:15 · 1251 阅读 · 0 评论 -
李宏毅《机器学习》Bert笔记
Bert学习笔记和工作原理解释原创 2023-02-24 20:18:48 · 569 阅读 · 0 评论 -
Transformer学习笔记
Transformer笔记原创 2023-02-24 14:30:09 · 455 阅读 · 0 评论 -
RNN GRU模型 LSTM模型图解笔记
RNN GRU模型 LSTM模型图解笔记原创 2023-02-19 17:44:25 · 482 阅读 · 0 评论 -
注意力机制,自注意力机制学习笔记
注意力机制和自注意力机制中为什么要加入w^q^,w^k^,w^v^原创 2023-02-21 23:17:56 · 615 阅读 · 0 评论 -
李沐多模态串讲笔记
李沐精读论文视频多模态串讲笔记原创 2023-05-25 17:12:52 · 3163 阅读 · 1 评论 -
ViLT论文精读笔记
目前的VLP(Vision-and-Language Pre-training)方法严重依赖于图像特征提取过程,其中大部分涉及区域监督(如目标检测)和卷积体系结构(如ResNet)所以产生两个问题效率/速度方面:简单地提取输入特征比多模态融合需要更多的计算表达方面:当用预训练好的模型抽特征,这个模型大概率不是最优解,深度学习往往是端到端。ViLT改善了以上2个问题。原创 2023-05-17 18:15:48 · 485 阅读 · 0 评论 -
李沐读论文笔记--大模型时代下做科研的四个思路
大模型时代下做科研的四个思路原创 2023-04-18 16:59:10 · 1870 阅读 · 1 评论