
LLM
文章平均质量分 91
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。原创 2025-03-10 07:40:44 · 710 阅读 · 0 评论 -
大语言模型都有哪些特质?区分度达97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
区分不同LLM生成的文本:研究旨在识别和区分不同大型语言模型(LLM)生成的文本,揭示各模型的独特输出模式。理解LLM的独特行为:通过分析LLM生成的文本,探讨这些模型的独特行为及其在语义层面的表现。原创 2025-03-05 22:41:51 · 640 阅读 · 0 评论 -
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。原创 2025-03-02 09:38:43 · 1990 阅读 · 0 评论 -
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。原创 2025-02-16 17:09:27 · 1461 阅读 · 0 评论 -
完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具
解决的问题人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。提出的方案本文引入Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。原创 2025-01-06 23:34:03 · 2240 阅读 · 0 评论 -
华佗来了,首个具备复杂推理能力的医学大语言模型!港中文等发布HuatuoGPT-o1
医学领域的推理能力尚未被充分探索,尽管其重要性与数学领域相似。医学推理的验证比数学更具挑战性,需要可靠的答案来满足高标准的医疗保健需求。原创 2025-01-04 23:21:58 · 1103 阅读 · 0 评论 -
比Janus更强!15M数据实现颠覆性统一多模态大模型!华为诺亚提出ILLUME
多模态统一建模挑战:如何在单一的大语言模型中无缝融合多模态理解和生成能力。数据效率问题:减少图文对齐所需的大规模数据集,降低训练成本。多模态协同增强不足:现有模型在多模态理解和生成能力的协同提升方面探索有限。原创 2024-12-16 23:04:10 · 1038 阅读 · 0 评论 -
OpenCompass排名第一!腾讯微信开源POINTS1.5:面向现实应用的VLM,支持双语
这些基准包括用于诊断一般能力的MMBench和 MMStar,用于测试STEM相关能力的MMMU,用于模型幻觉的HallusionBench,用于数学相关能力的MathVista,用于图表相关能力的AI2D,用于OCR能力的OCRBench,用于主观评估的MMVet。与此不同,POINTS1.5采用了NaViT风格的架构,沿用了Qwen2-VL 和Idefics2的方法,使其能够处理任意分辨率的图像,而无需拆分图像,从而在性能上大大超越了POINTS1.0中使用的双CLIP视觉编码器。原创 2024-12-15 23:37:23 · 985 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2240 阅读 · 0 评论 -
VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
解决的问题当前视觉语言模型(VLMs)在处理复杂的视觉问答任务时,系统性和结构化推理能力较弱,尤其在多阶段推理任务中表现不佳。提出的方案引入LLaVA-o1,一个新型 VLM,采用自主的多阶段推理策略。与链式思维(chain-of-thought)提示不同,LLaVA-o1 将推理分为以下独立阶段:总结、视觉解释、逻辑推理和结论生成。应用的技术构建 LLaVA-o1-100k 数据集,整合多种视觉问答数据来源,提供结构化推理标注。原创 2024-11-19 08:51:52 · 1996 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 1025 阅读 · 0 评论 -
苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!
生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。原创 2024-10-21 21:29:59 · 441 阅读 · 0 评论 -
矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI
引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。原创 2024-10-20 22:31:25 · 1183 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1178 阅读 · 0 评论 -
详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)
在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。原创 2024-10-11 08:27:28 · 3298 阅读 · 0 评论 -
从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述
文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时间信息的连续帧,而长视频则由多个事件组成,涉及事件之间和长期的时间信息。原创 2024-10-09 23:45:13 · 2910 阅读 · 4 评论 -
Qwen2-VL全面解读!阿里开源多模态视觉语言模型,多项超越GPT4o与Claude 3.5-Sonnet
Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处理方法,解决了在处理不同分辨率图像时的效率和准确性问题。原创 2024-09-24 09:02:50 · 7583 阅读 · 0 评论 -
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。原创 2024-08-29 09:17:21 · 1029 阅读 · 0 评论