- 博客(10)
- 收藏
- 关注
原创 从云端到掌中:深入解读MiniCPM-V
然而,这些模型通常需要在高性能云服务器上运行,限制了它们在移动设备、离线环境、能耗敏感和隐私保护等场景中的应用。MiniCPM-V 系列模型在多模态大语言模型的轻量化和终端部署方面取得了重要突破,展示了在保持高性能的同时,实现高效部署的可能性。这一研究为多模态模型的实际应用提供了新的思路,特别是在资源受限的环境中,如移动设备、边缘计算等场景。为解决这一问题,Yuan Yao 等人提出了 MiniCPM-V 系列模型,旨在在保持高性能的同时,实现模型在终端设备(如手机)上的高效部署。
2025-06-04 13:28:38
615
原创 从 DeepSeek-VL 到 DeepSeek-VL2:深入解读DeepSeek-VL2
DeepSeek-VL2 不仅提升了模型性能,也展现了多模态大模型在通用性、高效性和实用性方面的新高度。作为一款“可落地”的视觉语言模型,其在科研与产业之间搭建了坚实桥梁。
2025-06-04 13:20:59
557
原创 从OCR-1.0到OCR-2.0:深入解读GOT
传统的OCR系统,即所谓的OCR-1.0,通常采用多阶段流水线结构,包括文本检测、图像裁剪与校正、文字识别等多个模块。本文作者提出了“通用OCR理论”(General OCR Theory),意图打破传统OCR范式的限制,朝着OCR-2.0迈进——构建一个统一、端到端、高性能且具交互性的OCR系统。这样可以在不丢失文本细节的情况下进行高效表征。:采用Qwen-0.5B,具备约500M参数和8K上下文窗口,能处理结构化长文档,并灵活生成各类格式文本(纯文本、Markdown、LaTeX、SMILES等)。
2025-06-04 13:18:07
468
原创 从“解析”到“理解”:深入解读Dolphin
Dolphin模型在文档图像解析领域提出了创新性的解决方案,通过引入异构锚点提示和并行解析机制,有效提升了解析效率和准确性。为了解决上述问题,作者提出了Dolphin模型,采用“先分析、后解析”(analyze-then-parse)的新范式,旨在提高解析效率和结构一致性。该方法启发了我在其他多模态信息处理任务中的思考,例如在图像和文本的联合理解中,如何设计有效的锚点机制以提高解析性能。此外,作者还测试了模型在不同文档类型和布局下的鲁棒性,结果显示Dolphin具有良好的泛化能力。
2025-06-04 13:13:08
468
原创 从长文档理解到高效问答:深入解读PDF-WuKong
PDF-WuKong在多模态文档理解领域提出了创新的解决方案,尤其是在处理长篇PDF文档的问答任务中展示了强大的能力。其引入的稀疏采样机制有效地提升了模型的效率和性能,为多模态信息处理提供了新的思路。为了克服这些限制,作者提出了PDF-WuKong,一种结合文本与图像信息的多模态大模型,旨在高效处理长篇PDF文档的问答任务。此外,模型在不同长度的文档上均表现出良好的泛化能力,证明了其在处理长文档时的鲁棒性。在多个多模态文档理解任务上,PDF-WuKong与现有方法进行了对比,结果如下:(
2025-06-04 13:05:59
592
原创 【多模态】paper阅读笔记:Donut
当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于OCR输出的理解任务。通过广泛的实验和分析,我们展示了一个简单的OCR-free VDU模型Donut,它在各种VDU任务中在速度和准确性方面都达到了最先进的性能。在具有复杂字符集的语言中,如汉语或韩语,OCR的质量相对较低,这一问题变得更加严重。为了从这些文档图像中提取有用的信息,视觉文档理解(VDU)不仅是行业的一项重要任务,也是研究人员的一个具有挑战性的课题,其应用包括文档分类、信息提取和视觉问答。
2024-01-06 10:46:37
1137
1
原创 【多模态】paper阅读笔记:TrOCR
第二个阶段,研究员们构建了两个相对较小的数据集,分别对应打印体文本识别任务和手写体文本识别任务,均包含上百万的文本行图像,并在打印体数据和手写体数据上预训练了两个独立的模型,且都由第一阶段的预训练模型初始化。对于编码器,TrOCR 采用了 ViT 模式的模型结构,即改变输入图像的尺寸,并切片成固定大小的正方形图像块,以形成模型的输入序列。模型保留预训练模型中的特殊标记“[CLS]”代表整张图片的特征,对于 DeiT 的预训练模型,同样保留了对应的蒸馏token,代表来自于教师模型的蒸馏知识。
2024-01-04 18:58:15
1031
1
原创 【多模态】paper阅读笔记:Kosmos-2.5
将文本图像纳入训练过程并开发基于文本和视觉信息的模型,可以为涉及高分辨率文本密集图像的多模态应用开启新的可能性。随着深度学习的兴起,文档AI领域取得了显著进展,如LayoutLM、DocFormer、Donut、MarkupLM、XDoc、UDOP和Pix2Struct等模型,它们利用大规模文档数据进行预训练,并将文本、布局和图像信息整合到模型中,取得了令人印象深刻的性能。近年来,研究人员致力于构建更大更复杂的模型,如GPT-3和GPT-4,这些模型具有数百/数千亿的参数,能够生成引人入胜的语言输出。
2023-12-27 16:12:27
1222
1
原创 【多模态】paper阅读笔记:BEiT V3
再加上本文提出的将图像视为一种语言的方式,可直接复用已有的大规模语言模型的预训练方法,从而更有利于视觉基础模型的扩大。对应之前提到的,这三方面的统一概念了解后,就能知晓big convergence的相关概念早已存在,即大模型发展成熟的几项条件:一是 Transformers 成为不同领域和问题的通用神经网络架构和建模方式,二是生成式预训练(generative pre-training)成为最重要的自监督学习方法和训练目标,三是数据和模型参数的规模化(scaling up)进一步释放基础模型的潜力。
2023-12-26 10:14:26
1275
1
原创 文本摘要任务简述
1.简介文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘...
2020-02-29 11:20:55
2395
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人