论文解读
文章平均质量分 95
cv_lhp
纸上得来终觉浅,绝知此事要躬行
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ChatGPT/InstructGPT论文(二)
已有的大型语言模型(例如GPT3.5)并非模型越大越好。越大的模型仍然会生成假的、有害的、简单的和没有用的内容。简单的说,得不到用户想要的内容。1.人工引导,使用监督学习。2.强化学习,人工帮助的情况下,训练一个模型,该模型会进一步引导GPT模型生成优质的结果。实验结果:InstructGPT使用1.3B参数的模型对比GPT-3的1750B参数模型能取得更优的性能(即能生成更优,更有用,更安全,更无害的内容,调戏过ChatGPT的人应该更有体会)。原创 2023-03-31 17:05:52 · 2452 阅读 · 0 评论 -
ChatGPT/InstructGPT论文(一)
ChatGPT的论文尚未放出,也不知道会不会有论文放出,但是根据公开资料显示,其训练方式,跟OpenAI之前的一个工作——InstructGPT基本无异,主要是训练数据上有小的差异,因此我们可以从InstructGPT的论文中,窥探ChatGPT强大的秘密。本文主要(粗略)解读一下InstructGPT的论文——Training language models to follow instructions with human feedback.原创 2023-03-31 16:12:53 · 8042 阅读 · 0 评论 -
对比学习综述
它们使用的代理任务是不一样的,有个体判别,有预测未来,还有多视角多模态它们使用的目标函数也不尽相同,有 NCE,有infoNCE,还有NCE的其它变体它们使用的模型也都不一样,比如说invariant spread用了一个编码器;Inst Disc用一个编码器和memory bank;CPC有一个编码器,还有一个自回归模型;CMC可能有两个甚至多个编码器它们做的任务从图像到视频到音频到文字到强化学习,非常的丰富多彩。目标函数都是用infoNCE或者infoNCE类似的目标函数去算的。原创 2023-01-05 02:09:28 · 4379 阅读 · 0 评论 -
MoCo论文:Momentum Contrast for Unsupervised Visual Representation Learning
本文提出了MoCo去做无监督的表征学习,虽然是基于对比学习的,但是本文是从另外一个角度来看对比学习,也就是说把对比学习看作是一个字典查询的任务。第一个部分是一个队列,因为队列中的样本不需要做梯度回传,所以就可以往队列中放很多负样本,从而使得这个字典变得很大第二个部分是一个移动平均的编码器,使用这个移动平均的编码器的目的是想让字典中的特征尽量的保持一致。作者发现在训练的过程中,如果能有一个很大而且比较一致的字典,会对无监督的对比学习非常有好处。原创 2022-12-29 12:01:50 · 4083 阅读 · 1 评论 -
CLIP: 打通文本图像迁移模型的新高度
2021年见证了vision transformer的大爆发,随着谷歌提出ViT之后,一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。转载 2022-09-02 02:52:53 · 5399 阅读 · 1 评论 -
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition
如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调」图像预训练模型。而在图像领域, 最近流行的语言 - 图像预训练模型展现了卓越的泛化性,尤其是零样本迁移能力。那么人们不禁要问:能否有一种视频模型兼顾「微调」 的高效和 「语言 - 图像预训练」的全能?答案是可以!为解决此问题,原创 2022-09-01 20:11:37 · 3784 阅读 · 0 评论 -
论文解读 VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
在本文中,作者提出了VideoCLIP,这是一种不需要下游任务的任何标签,用于预训练零样本视频和文本理解模型的对比学习方法。VideoCLIP通过对比时间重叠的正视频文本对 和最近邻检索的负样本对,训练视频和文本的Transformer。在本文中,作者对一系列下游任务(包括序列级文本视频检索、VideoQA、token级动作定位和动作分割)进行了实验,实验结果表明本文提出的VideoCLIP可以达到SOTA的性能,在某些情况下甚至优于监督方法。论文地址代码地址。.........原创 2022-08-31 19:05:44 · 4588 阅读 · 0 评论 -
论文解读:SlowFast Networks for Video Recognition
本文提出了用于视频识别的 SlowFast 网络。该模型包含:1)一个以低帧率运行、用来捕捉空间语义的 Slow 路径;2)一个以高帧率运行、以较好的时间分辨率来捕捉运动的 Fast 路径。我们可以减少 Fast 路径的通道容量,使其变得非常轻,但依然可以学习有用的时间信息用于视频识别。我们的模型在视频动作分类及检测方面性能强大,而且我们的 SlowFast 概念实现的巨大改进是对这一领域的重要贡献。...原创 2022-08-31 02:29:42 · 1628 阅读 · 0 评论
分享