- 博客(47)
- 收藏
- 关注
原创 DeepSeek专题:DeepSeek-R1核心知识点速览(附脑图)
纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。多阶段训练管道:提出了包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在初期RL训练中表现更稳定,避免了基础模型的早期不稳定问题。推理导向的强化学习:在冷启动数据的基础上,应用大规模推理导向的RL训练,显著提升了模型的推理能力。
2025-03-14 16:17:02
1060
原创 DeepSeek专题:DeepSeek-V3核心知识点速览
自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,用于解决大语言模型的高效推理和训练问题。多头潜在注意力(MLAMLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率。DeepSeekMoE架构使用细粒度的专家并行和隔离一些专家作为共享专家,以提高训练效率。无辅助损失的负载均衡为了最小化辅助损失对模型性能的影响,提出了一种无辅助损失的负载均衡策略,通过引入偏置项来动态调整专家负载。
2025-03-14 15:57:24
920
原创 DeepSeek专题:DeepSeek-V2核心知识点速览
一种强大的MoE语言模型,通过创新的架构实现了经济和高效的训练和推理。图2 | DeepSeek-V2架构示意图。MLA通过显著减少生成所需的KV缓存来确保高效推理,而DeepSeekMoE则通过稀疏架构以经济成本训练出强大的模型。多头潜在注意力(MLA一种新的注意力机制,通过低秩键值联合压缩来显著减少推理时的键值缓存,从而提高推理效率。标准多头注意力(MHA)首先通过三个矩阵计算查询(q)、键(k)和值(v):然后,将q、k、v切片成多个头进行多头注意力计算:最后,通过softmax函数。
2025-03-08 22:34:08
748
原创 AI多模态教程:DeepSeek多模态模型解析及实践指南
Janus 是 DeepSeek 团队提出的一个统一多模态理解与生成的模型,能够在单一模型中实现图像理解和文本到图像生成的双重任务。在多模态理解方面,Janus可以处理图像描述、视觉问答(VQA)、地标识别、文字识别等多种任务;在多模态生成方面,Janus也可以根据输入的文本描述生成高质量的图片。Janus-Pro是其最新的升级版本。Janus的核心创新点在于将多模态理解与生成的视觉编码进行解耦,从而缓解了这两个任务潜在存在的冲突。
2025-03-08 22:21:26
1128
原创 DeepSeek专题:DeepSeek-V1核心知识点速览
旨在通过长期视角推动开源语言模型的发展。首先,开发了一个包含2万亿token的数据集,并对其进行去重、过滤和重新混合。去重阶段通过跨多个dump进行去重,过滤阶段通过详细的语义和语言学评估来增强数据密度,重新混合阶段则通过增加代表性不足领域的存在来平衡数据。表1|各种常见 Crawl dumps 去重比率模型架构DeepSeek LLM的微观设计主要遵循LLaMA的设计,采用Pre-Norm结构和RMSNorm函数,使用SwiGLU作为前馈网络的激活函数。
2025-02-16 22:57:01
789
原创 DeepSeek专题:以专业角度详细讲讲Deepseek-R1的高质量数据合成过程⌛
AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。
2025-02-16 22:43:35
1387
原创 2025年春节期间科技界大事件回顾:DeepSeek与OpenAI的激烈角逐
AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。
2025-02-07 23:40:48
1686
原创 2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级,让我们在AIGC时代携手同行!
并且AI行业的发展是跨周期可持续的。因为AIGC是元宇宙和AGI初级阶段中不可或缺的核心要素,在AIGC时代之后的元宇宙和AGI初级阶段,AIGC有望迎来近30年的红利期。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构,其中包含近。根据艾瑞咨询的预测,中国的AIGC产业规模预计在2028年将达到7200亿元,到2030年有望突破万亿大关。
2025-01-17 10:47:49
419
原创 书生·浦语 3.0 开源:4T 数据训出高性能模型,融合深度思考与常规对话
AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;
2025-01-16 21:18:59
761
原创 AI多模态论文解读:LLaVA-CoT:让视觉语言模型逐步推理
LLaVA-CoT(Let Vision Language Models Reason Step-by-Step),一种旨在通过多阶段推理来增强视觉语言模型(VLM)系统性和结构性推理能力的新模型。LLaVA-CoT将答案生成过程分解为四个结构化推理阶段:总结、标题、推理和结论。模型提供问题的高层次总结,概述将要解决的问题的主要方面。如果存在图像,模型提供与问题相关的视觉元素的简洁概述,帮助理解多模态输入。基于初始总结,模型进行结构化和逻辑推理,得出初步答案。模型综合前面的推理,生成最终答案。
2025-01-10 18:24:49
1474
原创 AI多模态技术介绍:视觉语言模型(VLMs)指南
在本文中,我们将探讨用于开发视觉语言模型(Vision Language Models,以下简称VLMs)的架构、评估策略和主流数据集,以及该领域的关键挑战和未来趋势。通过了解这些基础方面,读者可以深入了解如何在包括医疗、机器人和媒体等行业中应用VLMs,以创建更复杂且具备上下文感知能力的人工智能系统。曾经人工智能能够像人类一样有效地理解视觉和文本线索的想法,似乎遥不可及且难以想象。然而随着多模态AI的出现,我们正在经历一场革命。
2025-01-10 15:07:43
1411
原创 2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
本文作者:AIGCmagic社区 猫先生探索AI的无限可能,关注“”社区,让科技点亮生活。
2025-01-05 19:02:24
1349
原创 AI多模态技术介绍:理解多模态大语言模型的原理
本文目标是解释多模态LLMs的工作原理,虽然多模态的输入可以有音频,文本,图像和视频,但这里主要讨论的还是以图文为主的多模态大语言模型。参考文章:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms- 畅销书《Python机器学习》作者)。
2024-12-22 19:05:47
1558
原创 智能文档解析综述:结构化信息提取的技术、挑战与前景
文档解析对于将非结构化和半结构化文档(如合同、学术论文和发票)转换为结构化、机器可读的数据至关重要。通过从非结构化输入中提取可靠的结构化数据,文档解析为众多应用提供了极大的便利。尤其是在大型语言模型的最新进展中,文档解析在知识库构建和训练数据生成中扮演着不可或缺的角色。本综述全面回顾了当前文档解析的现状,涵盖了从模块化管道系统到由大型视觉语言模型驱动的端到端模型等关键方法。详细探讨了版面检测、内容提取(包括文本、表格和数学表达式)以及多模态数据集成等核心组件。
2024-12-06 18:31:13
4265
原创 AI多模态模型剪枝:12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
这篇论文通过分析视觉计算中的冗余,提出了一系列策略来减少视觉计算的开销,从而提高MLLMs的效率。实验结果表明,这些策略可以在保持模型性能的同时,显著减少计算成本。在基本保持性能的同时,LLaVA 的计算开销被减少了 88%。在 Qwen2-VL-7B 和 InternVL-2.0-4B/8B/26B 上的额外实验进一步证实,视觉计算冗余在多模态大模型中普遍存在。
2024-12-06 14:07:28
906
原创 AI多模态技术趋势分析:OpenAI O1进展及LLM-Self-Correction机制
探索AI的无限可能,微信关注“”公众号,让科技点亮生活。
2024-12-01 23:41:46
912
原创 端侧多模态/大模型:ViVO手机端侧多模态技术分析
与参数规模相似的模型相比,BlueLM-V-3B表现出色,例如在TextVQA任务中,BlueLM-V-3B的得分为78.4,而MiniCPM-V-2.6为73.2。与MiniCPM-V-2.6和InternVL2-8B等参数更多的模型相比,BlueLM-V-3B表现出色,证明了较小参数模型的强大能力。:在MediaTek Dimensity 9300处理器上,BlueLM-V-3B的内存需求仅为2.2GB,能够在约2.1秒内编码分辨率为768x1536的图像,并实现每秒24.4个token的吞吐量。
2024-12-01 22:49:40
1315
原创 论文解读:Florence-2-微软全新开源视觉模型,应对超过10种不同的视觉任务
Florence-2 的模型架构采用序列到序列(seq2seq)的学习方法,在序列到序列框架中,每个任务都被视为一个翻译问题:模型接收输入图像和特定任务提示,并生成相应的输出。上述不同的视觉任务的理解需要大模型的支持,最近Microsoft 推出了多模态视觉语言模型(VLM)Florence-2,该模型能够执行超过10种不同的视觉任务,包括图像字幕生成、目标检测、图像区域关联和分割等。这个全面的数据集是专门为 Florence-2 设计的,使其具备高精度、高效率处理各种视觉任务所需的能力。
2024-11-24 22:19:08
1620
原创 AI多模态技术趋势分析:端侧 AI 的最新进展、创新应用及行业洞察
据国地中心方面介绍,《人形机器人分类分级应用指南》定义了人形机器人通用、结构、智能相关的术语名词,从结构外观、移动方式、智能模型等方面进行指导分类,按照具身智能、下肢运动、上肢作业、应用环境等作为分级要素,将人形机器人划分为L1-L4四个技术等级。10月28日,LOHO眼镜、闪极科技与科大讯飞在深圳市LOHO眼镜总部签署战略合作协议,致力于以“眼镜+”为基础,打造全球领先的“全时段拍摄+高品质音频+多模态AI”智能眼镜,共创智能眼镜领先品牌,成为全球知名的AI生态入口级硬件。探索AI的无限可能,微信关注“
2024-11-10 15:57:18
1471
原创 AI多模态测评基准(3):SuperCLUE-o 中文原生多模态实时交互测评基准
随着人工智能技术的飞速发展,大模型的多模态实时交互能力已成为新的研究热点。例如,OpenAI 在春季发布会中介绍了具备多模态实时交互能力的 ChatGPT-4o;法国 AI 实验室 Kyutai 发布了实时原生多模态模型 Moshi;商汤科技在 WAIC 2024 发布了国内首个具备流式原生多模态交互能力的大模型「日日新 SenseNova 5.5」。考虑到未来国内将会涌现出大量具备实时交互能力的大模型,
2024-10-15 16:15:07
1139
原创 论文解读:首个OpenAI O1项目复现报告,揭秘独家经验!
在人工智能领域掀起巨浪的 OpenAI o1 模型发布三周后,一支由高校年轻研究者组成的团队今天发布了题为 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅:战略进展报告)" 的研究进展报告。这份报告的独特之处在于 :(1)不仅提出并验证了 “旅程学习” 的技术的巨大潜力(研究者也认为是 o1 取得成功的关键技术):通过 327 条训练样本,鼓励模型学会反思、纠错、回溯,其在复杂数学题目上。
2024-10-15 15:45:32
1907
原创 多模态文档理解:多任务通用OCR2.0模型
模型链接:https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0代码链接:https://github.com/Ucas-HaoranWei/GOT-OCR2.0/论文链接:https://arxiv.org/abs/2409.01704。
2024-09-30 16:32:15
1325
原创 AI多模态基础知识点:LLM小白也能看懂的分词(tokenization)解读
探索AI的无限可能,加入“AIGCmagic”社区,让AIGC科技点亮生活〕本文作者:AIGCmagic社区 刘一手。
2024-09-30 14:51:20
1109
原创 多模态文档理解:一文读懂mPLUG-DocOwl系列模型
结果表明,初始化为更强的通用MLLMs带来了更好的文本丰富图像理解性能,调整视觉编码器显著提高了文档理解性能,H-Reducer在保持丰富文本信息和视觉特征对齐方面表现出色,统一结构学习显著提高了不同领域的性能。特别是,通过引入基于交叉注意力的高分辨率全压缩模块和三阶段训练框架,DocOwl2在保持大多数视觉信息的同时,显著减少了视觉令牌的数量,提高了推理速度和模型性能。具体来说,现有的MLLMs在处理文本丰富的图像(如文档、网页、表格和图表)时,缺乏对文本和结构信息的通用理解能力。
2024-09-20 14:29:34
1763
原创 论文解读:利用大模型进行基于上下文的OCR校正
研究问题:这篇文章要解决的问题是如何利用预训练的语言模型(LMs)来改进光学字符识别(OCR)的质量,特别是针对报纸和期刊等复杂布局的文档。研究难点:该问题的研究难点包括:OCR技术在处理复杂布局的报纸和期刊时容易出现错误;现有的后OCR校正方法效果有限;如何有效利用语言模型的上下文自适应能力来提高OCR质量。相关工作:该问题的研究相关工作有:基于众包校正的方法、在线安全测试、以及机器学习方法等。然而,2017年ICADAR后OCR校正竞赛发现,只有约一半的提交方法能够提高OCR质量。
2024-09-12 17:48:20
1769
原创 AI多模态测评基准(2):MME-RealWorld-高分辨率的真实世界场景测评基准
论文名称:MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?论文链接:https://arxiv.org/abs/2408.13257项目主页:https://mme-realworld.github.io/代码链接:https://github.com/yfzhang114/MME-RealWorld。
2024-09-12 16:53:21
1539
原创 AI多模态测评基准(1):CMM-Math-中文多模态数学评估数据集
研究问题:这篇文章要解决的问题是如何评估和提升大型多模态模型(LMMs)在数学推理方面的能力。具体来说,现有的文本数学推理数据集主要关注英语,缺乏中文的多模态数学数据集,且这些数据集在问题的复杂性和多样性方面存在不足。研究难点:该问题的研究难点包括:现有数据集主要集中在文本信息,忽略了问题的视觉上下文;现有的多模态数学数据集在规模和多样性方面有限,无法全面评估和提升LMMs的性能。相关工作。
2024-09-12 12:33:48
1440
原创 AI多模态模型架构之模态生成器:Modality Generator
模态编码器(Modality Encoder):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。
2024-08-25 21:43:16
1385
原创 多模态基础模型:一文读懂LLAVA系列模型
LLAVA系列多模态大模型以其强大的表现力和广泛的应用前景,吸引了众多科研人员和企业关注。本文将为您带来LLAVA多模态大模型系列的深度解读,从原始论文中抽丝剥茧,带您领略这一前沿技术的魅力。
2024-08-25 19:58:20
7740
原创 SAM2论文核心速览
这种内存机制使得SAM 2能够在视频处理过程中记住之前的对象状态和交互信息,从而在生成掩码预测时能够考虑到这些历史信息,提高视频分割的准确性和效率。这个阶段收集了16K个掩码。:在9个密集标注的视频数据集中,SAM 2在交互式离线评估中使用了3次点击,平均J&F指标优于现有的XMem++和Cutie基线方法,显示出更高的分割准确性和更少的交互次数。:在17个视频分割和37个单图像分割的零样本基准测试中,SAM 2表现出色,特别是在视频分割任务中,SAM 2在9个密集标注的视频数据集中均优于现有的基线方法。
2024-08-18 18:43:46
1094
原创 AI视频实战教程:DiffIR2VR-Zero-模糊视频8K高清修复技术
使用扩散模型批量处理低质量 (LQ) 视频,并在每批中随机采样关键帧。(a) 在扩散去噪过程开始时,分层潜在扭曲通过关键帧之间的潜在扭曲在全局提供粗略的形状指导,并通过在批次内传播这些潜在扭曲在局部提供粗略的形状指导。(b) 在大部分去噪过程中,标记在自注意力层之前合并。对于下采样块,使用光流来查找标记之间的对应关系,对于上采样块,利用余弦相似度。这种混合流引导、空间感知的Token合并通过利用流和空间信息准确地识别Token之间的对应关系,从而增强Token级别的整体一致性。
2024-07-30 23:46:04
1105
1
原创 AI多模态模型架构之输出映射器:Output Projector
模态编码器(Modality Encoder):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。
2024-07-30 23:35:28
1748
原创 AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理
MiniCPM-V 2.0,这是MiniCPM系列的多模态版本。MiniCPM-V 2.0显示出强⼤的OCR和多模态理解能⼒,在开源模型中的OCRBench上表现出⾊,甚⾄在场景⽂本理解上可以与Gemini Pro相媲美。MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型(MLLMs),提供⾼质量的⽂本输出,已发布4个版本。# 下载模型,以int4量化的MiniCPM-Llama3-V-2_5为例。# 前提,安装git和git-lfs【可选,如果已安装,则跳过】# 新建demo.py。
2024-07-21 19:09:00
2910
原创 AI多模态教程:Qwen-VL多模态大模型实践指南
使用官方项目里提供的微调脚本进行LoRA微调测试,模型采用HuggingFace下载的那个全精度模型,数据采用上面的示例数据,建议模型路径使用绝对路径,如果你想节省显存占用,可以考虑使用chat模型进行LoRA微调,显存占用将大幅度降低。提供finetune.py脚本和shell脚本的目的是为了简化用户在自有数据上微调预训练模型的过程,同时支持DeepSpeed和FSDP(Fully Sharded Data Parallel)两种优化技术,以提高训练效率和可扩展性。
2024-07-05 18:14:07
2947
原创 AI多模态模型架构之LLM主干(3):Llama系列
初期,小模型的损失下降较快,但随着训练的深入,小模型的性能逐渐饱和,下降速度减缓,而大模型的下降速度则超过了小模型。根据传统Scaling Law的建议,对于10B模型,应使用2000亿token进行训练,但Meta发现,即使是7B模型,使用1万亿token后,性能仍能持续提升。在后续的Llama系列中,Llama-1全部采用了公开渠道可以获取的数据,使用了2017至2020年的CommonCrawl数据,以及来自书籍和维基百科的文本,并且进行了去重,去掉了非英文数据,用线性模型对文本质量进行了分类。
2024-07-05 17:54:29
2333
原创 AI多模态教程:Mini-InternVL1.5多模态大模型实践指南
论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集中。同时,为了增强模型的多语言能力,我们实现了数据翻译pipeline,利用最先进的开源LLM或GPT-3.5 将英文数据集转换为另一种语言(例如中文),保持双语标注的一致性和准确性。在Mini-InternVL 1.5的工作中,InternViT-6B-448px-V1-5被蒸馏到300M,并使用。
2024-06-21 17:37:16
1624
原创 AI多模态模型架构之LLM主干(2):Qwen系列
模态编码器(Modality Encoder, ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。
2024-06-15 01:42:37
2247
原创 AI多模态模型架构之LLM主干(1):ChatGLM系列
模态编码器(Modality Encoder, ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。
2024-06-13 23:46:55
2172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人