
多模态大模型
文章平均质量分 95
猫先生@魔方AI空间
AI技术从业者与爱好者,专注于AIGC、计算机视觉、多模态、大模型、AI绘画、AI视频、数字人、边缘智能等前沿科技成果的研究和技术分享!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM大模型系列(八):什么是Ray?
“一个通用的分布式计算平台,用 Python 就能表达异构分布式任务,并且具备极强的扩展性。”原创 2025-06-17 19:14:16 · 467 阅读 · 0 评论 -
一文搞懂RAG技术范式演变及Agentic RAG:未来AI应用的基石
Agentic RAG,它就像给AI装上了“智能小助手”,能够实时检索最新数据,还能根据复杂任务灵活调整策略,让回答更准确、更贴近我们的需求!原创 2025-04-11 17:51:19 · 657 阅读 · 0 评论 -
2025年2月AGI技术月评|重构创作边界:从视频生成革命到多模态生态的全面爆发
本文聚焦本月最具代表性的开源项目,剖析技术内核,展望未来趋势。原创 2025-03-16 09:44:53 · 920 阅读 · 0 评论 -
开源项目 | olmOCR:解锁PDF文本的“黑科技”,让语言模型更强大!
olmOCR,一种用于将PDF文档转换为干净、线性化的纯文本的开源Python工具包。原创 2025-03-09 17:24:54 · 943 阅读 · 0 评论 -
2025年1月AIGC开源技术月刊:多模态融合与轻量化革命
本期导读:多模态融合持续深化,生成式AI迎来效率与质量双重突破,开源大模型生态呈现国产崛起之势。原创 2025-02-27 10:00:05 · 1076 阅读 · 0 评论 -
一文搞懂DeepSeek的技术演进之路:大语言模型、视觉语言理解、多模态统一模型
本文意在初步梳理DeepSeek技术的演进及进化之路,主要包括三大方向:大语言模型、视觉语言理解模型、多模态统一模型!大语言模型系列论文:DeepSeek-LLM -> DeepSeek-V2 -> DeepSeek-V3 -> DeepSeek-R1视觉语言理解模型系列论文包括:DeepSeek-VL -> DeepSeek-VL2多模态统一模型系列论文包括:JanusFlow -> Janus -> Janus-Pro原创 2025-02-11 12:57:31 · 1233 阅读 · 0 评论 -
综述 | 一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO
本文从强化学习如何增强大语言模型(LLMs)的视角,进行系统性全面综述,涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术(RLHF和RLAIF),以及直接偏好优化(DPO)方法。原创 2025-01-17 11:58:06 · 1349 阅读 · 0 评论 -
2025年开篇|AI Agent 与多模态大模型:智能革命的新纪元
AI Agent,智能革命,才刚刚开始!!!原创 2025-01-14 16:24:59 · 1109 阅读 · 0 评论 -
综述 | 一文读懂多模态大模型(MLLM)
在本文中,旨在追踪和总结 多模态大模型(MLLM )的最新进展。原创 2024-12-14 21:34:52 · 3880 阅读 · 0 评论 -
一文读懂多模态大模型:LLaVA系列 | 从图像到视频的内容理解
本文整体脉络将从LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video)模型进行展开,分别介绍其各项技术亮点和模型架构,力求对多模态大模型在图像和视频内容理解上的应用进行深入浅出的解读!!原创 2024-12-14 21:37:39 · 4043 阅读 · 0 评论