
MM-LLM
文章平均质量分 79
灵海之森
一剑霜寒十四州
展开
-
olmOCR:使用VLM解析PDF
在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。#一、 olmOCR是使用VLM进行的端到端的PDF文档解析。原创 2025-02-27 15:50:54 · 1141 阅读 · 0 评论 -
LLM/VLM进行票据识别工作
票据识别任务的需求是给定不同类型的票据图像,提取出指定的字段值,以json格式给出结构化信息。提取结果示例:来自智能结构化 - 文字识别OCR目前的范式包括OCR,OCR+LLM, OCR+VLM,VLM四种方法。原创 2025-02-25 16:13:04 · 1067 阅读 · 0 评论 -
InternLM-XComposer2.5-OmniLive解读:语音和视频实时交互的新方向
该系统为实时处理多模态信息提供了新的思路,至少可行性没问题。但是看文章显示延迟是个问题,因为里面涉及到很多模块交互。未来的改进点:1.编码器优化:选择垂直领域的编码器,提升视频和音频理解能力。2.多模态的长期记忆模块:这方面是核心。可以参考mem0将视频和音频记忆存储到多模态知识图谱中,还有针对每个用户的键值数据库,向量数据库,图形数据库等。这样才能更为个性化,增强可用性。原创 2024-12-22 16:41:25 · 793 阅读 · 0 评论 -
合成数据的新方法-RAG
本文提出了一个利用LLM和检索-增强生成相关框架的力量来生成特定领域指令数据集以进行微调的新颖管道。1.合成数据的质量打分:可以先人工标注,微调一个7B的小模型,专门给条目赋分。2.合成数据的多样性:首先是生成的时候要多样性,就是取一个个小主题概念去生成,引导大模型在局部思考(这个论文做得很好);然后是后处理,可以采用rougl-l分数排除掉太相似的条目;最后可以用t-sne或者umap的方法观察语义聚类情况,如果都在一起,分不开,那就没有多样性。3.高级RAG。原创 2024-08-14 16:20:08 · 1429 阅读 · 0 评论 -
MM-LLM:使用swift进行客观评测
司南是目前国内主流的(我觉得)评测框架,包含LLM的客观评测,VLM的客观评测(移动到vlmevalkit),长文本评测。这里以本地部署的VLM的OpenAI格式接口为例,只需要配置好evalscope环境,然后遵循下述代码。Swift(阿里的)集成了司南的,使得评测更为简单。原创 2024-08-07 16:31:02 · 598 阅读 · 0 评论 -
MMLLM:数据集构造
数据集的构建是一个迭代过程,模型训练后,通过评估性能和分析失败案例,可以识别出由训练数据缺陷导致的问题,并返回数据加工步骤进行调整。:利用预训练的多模态模型,如MLLMs,它们已经在大规模文本数据上进行了训练,可以帮助更好地处理和理解文本数据的多样性。:在文本数据中,可以通过基于名词短语频率的采样来平衡数据分布,排除罕见的名词短语,并减少过于常见的名词短语的出现频率。数据量与数据来源有关,通常依赖于特定的用例。:注意避免数据集中的偏差,例如避免特定类别的过度表示,或确保所有类别在数据集中都有公平的表示。原创 2024-08-01 16:39:25 · 650 阅读 · 0 评论 -
LLM:多模态RAG
背景:图像模型在特殊业务场景下幻觉严重。2.图像文本 rag。原创 2024-07-29 17:35:24 · 518 阅读 · 0 评论 -
LLM:学习清单 ing
归一化:层归一化,RNSnorm,批归一化,Pre-LN和Post-LN的区别。注意力机制:自注意力,多头注意力,分组查询注意力,多查询注意力(前两个要手写)BGE,BCE,BERT。长度外推:滑动窗口,rope,位置插值,yarn的原理。激活函数:tanh,relu,gelu,silu。位置编码:绝对位置编码,三角函数编码,ROPE。分布式:数据并行,模型并行,流水线并行。模态数据处理:多图,多视频,图文交错。agent:作用,实现方法,优化经验。RAG:作用,流程,性能调优经验。原创 2024-07-13 00:24:37 · 344 阅读 · 0 评论 -
MM-LLM:使用Llava类构建图文多模态大模型实践
多模态大模型的结构如上,llava是用两层MLP作为连接器。该模式也是后续很多工作的基础。本文主要参考了的工作,最初是在b站看到的,讲解的很细致。原创 2024-07-02 22:42:05 · 1473 阅读 · 0 评论 -
图像数据不同的表示形式
将图像数据转换为不同的表现形式,可以根据具体的需求和应用场景选择适合的方式。原创 2024-06-28 10:27:35 · 363 阅读 · 0 评论 -
源码解读:InternVL 1.5
对查询和键进行归一化可以稳定数值计算,提高模型的性能和收敛速度,并避免极端权重情况的发生。这种归一化处理在实际应用中已经证明是有效的,可以帮助模型在复杂的任务中表现得更好。from_pretrained函数接受cls和pretrained_model_name_or_path参数,用于从预训练模型的路径或名称加载配置。cls 是一个用于类方法中的通用参数名,指代调用该方法的类本身。原创 2024-06-25 19:55:26 · 1489 阅读 · 0 评论 -
MM-LLM:Internvl_chat.v1.5论文解读
直接说提出了一个拉近开源和商业多模态模型的开源模型。优化点:1.更强的Vision Encoder——InternViT-6B;2.动态高分辨率——动态高分辨率;3.高质量的中英双语数据集——显著增强OCR和中文相关的任务。原创 2024-06-24 20:22:40 · 1705 阅读 · 0 评论 -
MM-LLM:CogVLM解读
在图文多模态模型中,范式是图像的编码器、文本编码器、模态融合器。也就是不同模态特征抽取加模态对齐。这部分可以看在大模型里的范式在也是如此,目前的工作大部分都专注于怎么拉齐不同模态。原创 2024-06-24 00:55:54 · 1792 阅读 · 0 评论