
论文阅读
文章平均质量分 95
kabuto_hui
渡己亦渡人
展开
-
【论文阅读】RegNet-Designing Network Design Space
文章目录1. 动机2. 方法2.1 网络基本结构2.2 从AnyNetA到AnyNetE2.3 RegNet3. 总结4. 没有理解透的点1. 动机 当前设计网络结构的方法大部分是基于手工的,即通过做实验来确定相对最优的网结构。如果网络结构比较复杂,需要调整的超参数较多,手工的方式就很难找到最优的网络结构。所以大佬们设计了NAS(Network Architecture Search)及其拓...原创 2020-04-07 18:32:57 · 3097 阅读 · 1 评论 -
【大模型系列】CogAgent(2024.12)
值得注意的是,在给定相同的截图、用户指令、历史操作的情况下,可能会有多个正确的输入,例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中,在每层MSA(Multi-Self-Attention)层之后,再添加一个cross-attn层,原MSA的输出作为q,高分辨率的图像编码作为k-v,参与运算,最后cross-attn的输出维度与原MSA的输出维度保持一致。不过对于复杂的任务,或者打开一个冷门没见过的应用就不太行了。原创 2025-01-11 16:48:44 · 745 阅读 · 1 评论 -
【大模型系列】Mobile-Agent(2024.04)
文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先让agent提供需要点击的icon的属性(颜色和形状),原创 2025-01-02 22:27:54 · 1036 阅读 · 0 评论 -
【大模型系列】MultiUI(2024.11)
先基于text-based LLMs获取网页的accessibility tree(辅助功能树,),然后再与网页截图一起作为多模态数据,训练多模态模型。公开了MultiUI数据集,从1M网页中收集了7.3M的样本,包含多种UI任务(3类,9种任务)和界面。原创 2025-01-02 22:19:34 · 1014 阅读 · 0 评论 -
【大模型系列】Grounded-VideoLLM(2024.10)
针对长视频,均有抽取96帧还是否有效?关键帧选取每个片段的中间帧是否合理?理想情况下每个片段场景应该类似,但是实际中,每个片段可能出现不同的镜头拍摄角度。以关键帧作为间隔来分割会更合理但是会出现不均匀分割的现象。原创 2024-11-07 22:15:48 · 1338 阅读 · 0 评论 -
【大模型系列】Video-XL(2024.10)
提出了一个Video-XL模型,可以有效地对小时级别的视频进行理解,在A100-80G GPU上可以处理2024帧,大海捞针任务(Needle-in-haystack)中取得100%的准确率;引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)原创 2024-11-07 22:08:45 · 1053 阅读 · 0 评论 -
【大模型系列】Mini-InternVL(2024.10)
核心1:通过蒸馏的方式得到Visual encoder(InternViT-6B -> InternViT-300M),与InternVL2-76B对比,mini-InternVL-4B仅用5%参数实现90%的性能核心2:提出一个迁移到不同下游任务学习框架。原创 2024-10-28 22:57:38 · 1099 阅读 · 0 评论 -
【大模型系列】mPLUG-Owl3(2024.08)
增强了处理长图片序列的能力提出了一种hyper attention blocks,有效地将视觉和余元集中到一个共同的由语言引导的语义空间提出了一个长视觉序列评估基准:Distractor Resistance核心创新点:visual feature不直接作为LLM的输入,而是在LLM中间几层参与计算,再与文本特征融合到一起,因此不会因为输入的图片多而导致超出LLM的最大输入限制。mPLUG-Owl指标层面一般,与Qwen2VL-7B还有一定的差距。原创 2024-10-28 22:36:55 · 1007 阅读 · 0 评论 -
【大模型系列】Qwen2-VL(2024.10)
Qwen团队开源了Qwen2-VL系列模型,支持多语言图像文本理解、代码/数学推理、视频分析、实时聊天、代理等。支持动态分辨率输入,并在训练过程中引入了2D-RoPE,从而使模型更好的捕获不同空间尺度的信息;开发了M-RoPE,使用单独的组件来表示时间和空间信息,使模型可以更自然的理解动态内容如视频或者流数据;ModelLMM675M1.5B最高效的模型,专为在设备上运行而设计。它可以为资源有限的大多数场景提供足够的性能。675M7.6B。原创 2024-10-15 23:00:12 · 2836 阅读 · 0 评论 -
【大模型系列】PLLaVA(2024.04)
在空间维度上进行池化会产生有益的效果,而在时间维度上进行池化则会产生性能下降。原创 2024-08-24 13:10:57 · 1037 阅读 · 0 评论 -
【大模型系列】Flash-VStream(2024.06)
Flash-VStream是由来自于清华和字节的研究团队开发的一个视频问答模型(VideoQA)通过设计一种名为STAR的内存机制来实现在有限计算资源的前提下,能处理极长的视频流;开源了一个新的VideoQA Benchmark:VStream-QA Benchmark空间记忆容纳短期使用的最新的且详细的空间信息,并以FIFO队列的形式实现。原创 2024-08-24 12:46:03 · 1316 阅读 · 0 评论 -
【大模型系列】LanguageBind(ICLR2024.01)
LanguageBind是北大袁粒团队提出的一个多模态语义对其的方法,通过将各种模态(图像、视频、红外、音频、深度)映射到一个共享的特征空间,与文本实现对齐。同时该论文还开源了一个VIDAL-10M的数据集,包含多种模态(≥3)的数据。原创 2024-08-04 20:34:24 · 1411 阅读 · 0 评论 -
【大模型系列】Video-LaVIT(2024.06)
Video-LaViT是LaViT这篇工作的拓展,详见上一篇博客【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024),作者同样来自于北大和快手。思路与LaViT类似,通过将视频分解为交替的关键帧和运动向量,关键帧采用LaViT中的Image tokenizer,运动向量则设计了一个Motion tokenizer来进行编码。然后通过[IMG]、[/IMG]和[MOV]、[/MOV]来区分。原创 2024-07-30 22:49:07 · 1153 阅读 · 0 评论 -
【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024)
LaVIT是Language-VisionTransformer的简称,作者来自于北大和快手科技。文章提出了一种将图片tokenization的方式,使图片可以与language一样,可以用一组token来表示,这样图片就可以跟language的token合并在一起作为LLM的输入,通过自回归的方式来训练网络,相当于统一了视觉和文本两种模态的输入,其中图片的token前后通过两个特殊的token[IMG]和[/IMG]来与文本的token区分。所以文章的重点就在于如何将图片tokenization。原创 2024-06-30 17:17:12 · 1150 阅读 · 0 评论 -
【论文阅读】YOLO-World | 开集目标检测
通过视觉语言建模和大规模数据集上的预训练来增强YOLO的开发词汇检测能力。YOLO-world提出了一种prompt-then-detect范式:先提示,再检测。即将单词先转化成一系列离线的embedding,再将其重参数为模型的参数,参与到目标检测任务中来。原创 2024-04-18 23:40:28 · 2397 阅读 · 1 评论 -
【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)
DINO 中最核心的数据采样策略便是图像裁剪,这也是自监督学习领域应用非常广泛的主策略之一。原创 2024-03-09 17:45:14 · 10368 阅读 · 5 评论 -
YOLOv9理性解读 | 网络结构&损失函数&耗时评估
由台北中研院和台北科技大学等机构的研究团队推出的新的目标检测算法,一作Wang Chien-Yao也是Yolov4、Yolov7的作者之一,之前在Alexey Bochkvoskiy(Yolov4的第一作者)的团队中。原创 2024-02-29 23:13:43 · 7096 阅读 · 5 评论 -
【论文阅读】YOLOv3-YOLOv3: An Incremental Improvement
文章目录1. 细节1.1 Bounding boxes prediction1.2 Class Prediction1.3 Predictions Across Scales1.4 Feature Extractor2. 结论3. 一些失败的实验YOLOv3的论文相较于前两个版本,没有太大的改动,作者以一种实验报告的形式描述了YOLOv3的改进部分及实验结果,也非常坦率地公布了一些不太成功的实验...原创 2020-04-13 19:09:13 · 648 阅读 · 0 评论 -
【论文阅读】YOLO-v2: YOLO9000: Better, faster, stronger
文章目录1. 动机2. 方法2.1 改进2.2 联合多个数据集的训练机制3. 总结1. 动机 当前大部分的目标检测模型都只能检测很少的类别,这主要是受到数据集的影响。相较于分类和tagging任务的数据集,目标检测数据集规模小,比如样本数量,类别等。所以在YOLOv2的论文里面,作者不仅提出了一个升级版本的YOLO,最主要的贡献是还提出了一个联合多个图片分类的数据集和目标检测数据集训练目标检...原创 2020-04-12 22:55:58 · 595 阅读 · 0 评论 -
【论文阅读】YOLOv1-You Only Look Once: Unified, Real-Time Object Detection Joseph
文章目录1. 动机2. 方法2.1 网络结构2.2 模型成功关键因素2.2.1 图片网格化(gird)2.2.2 训练中的一些神操作2.2.3 LOSS的设计3. YOLO的优缺点3.1 优点3.1 缺点1. 动机 YOLOv1版本发表于2016年,当时流行的一些目标检测算法有DPM(Deformable Parts Models)和R-CNN,这些方法的原理通常是从图片中首先找到一些可能是...原创 2020-04-01 18:10:21 · 459 阅读 · 0 评论 -
【论文阅读】图像超分辨率(ISR) - RDN, SRGAN, ESRGAN
目录1.RDN(Residual Dense Network)残差密集网络【2018】1.1【Note】1.2【参数细节】1.3【超参数】2.SRGAN【2017】2.1【Note】3.ESRGAN【2018】3.1 与SRGAN中的生成器区别是做了以下的两个改进:3.2 与SRGAN中的判别器区别是做了以下的改进:3.3 关于感知损失(Perceptual...原创 2019-10-18 21:29:51 · 3654 阅读 · 1 评论 -
经典论文阅读(4)-InceptionV2
经典论文阅读(4)-InceptionV2及TensorFlow实现文章目录经典论文阅读(4)-InceptionV2及TensorFlow实现0. 前言1. 使用mini-batch进行批量标准化2. mini-BatchNormalization的好处3. 训练BN和使用BN进行推理(inference)4. 文章中的另一改进-将Inception模块中的5X5卷积用两层3X3卷积来代替5....原创 2019-05-03 17:59:47 · 2644 阅读 · 0 评论 -
经典论文阅读(3)-GoogLeNet-InceptionV1及其tensorflow实现
文章目录0. 前言1. Motivation2. Inception结构3. GoogLeNet-InceptionV14. InceptionV1的tensorflow实现参考资料0. 前言 GoogLeNet是Google开发的一个卷积神经网络模型,获得了ILSVRC2014的冠军。GoogLeNet增加了模型的宽度和深度,它的深度有22层,但是参数却之后500万个,AlexNet是它的...原创 2019-04-02 17:29:51 · 1375 阅读 · 0 评论 -
经典论文阅读(2)-VGGNet
经典论文阅读(2)-VGGNet文章目录经典论文阅读(2)-VGGNet0. 前言1. VGGNet与AlexNet2. 关于文章对收敛快的解释3. 关于使用3*3的卷积核4. 关于模型训练5. VGGNet的实现参考资料0. 前言 VGGNet是牛津大学Visual Geometry Group和Deep Mind共同开发的一种深度卷积网络。他们探索了卷积神经网络深度与其性能之间的关系。...原创 2019-03-25 22:43:58 · 882 阅读 · 0 评论 -
经典论文阅读(1)-AlexNet
0. 前言 AlexNet是深度学习领军任务Geoffrey Hinton教授的学生Alex Krizhevsky提出来的。AlexNet在ILSVRC 2012竞赛中以压倒性的成绩获得了冠军。AlexNet是一个具有突破性意义的模型,在他之前,神经网络和深度学习都陷入了长时间的瓶颈期。AlexNet一经问世就统治了整个图像识别领域。直至今日,AlexNet也依然是效果出色且具有启发意义的网络...原创 2019-03-22 15:26:51 · 2689 阅读 · 0 评论