
多模态
文章平均质量分 72
杰说新技术
AIGC最新前言落地技术研讨
展开
-
能同时处理视频、图像、文本和音频,多模态大模型VITA分享
VITA-MLLM,全称Visual Interactive Task AI - Multimodal Large Language Model,是由腾讯优图实验室联合南京大学、厦门大学以及中国科学院自动化研究所共同研发的首个开源多模态大语言模型。VITA-MLLM是一个基于Mixtral8×7B基础架构的扩展模型,它通过增加中文词汇量并进行双语指令微调来提升其在中文环境下的表现。不同于传统的单模态或仅能处理有限模态的语言模型,VITA-MLLM旨在成为一个能够同时处理多种类型输入信息的全能型AI系统。原创 2024-12-13 06:00:00 · 418 阅读 · 0 评论 -
原生多模态世界模型Emu3分享
Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型。Emu3模型的特点在于它能够处理和理解多种类型的数据,包括文本、图像以及视频,并且在这些不同模态之间实现统一的输入和输出。Emu3的核心是下一个token预测,属于一种自回归方法,模型被训练预测序列中的下一个元素,无论是文本、图像还是视频。为了处理大规模的数据集,Emu3采用了张量并行、上下文并行和数据并行相结合的方法,以便有效地利用计算资源。原创 2024-11-22 06:00:00 · 451 阅读 · 0 评论 -
最新集成视频、图像、语言理解和生成的多模态模型VILA-U分享
VILA-U是一个由清华大学、麻省理工学院和英伟达联合推出的统一多模态基础模型。VILA-U能够同时处理视频、图像和文本数据,打破了传统视觉语言模型中理解和生成功能分离带来的限制。VILA-U采用了自回归Transformer架构,能够处理离散化的标记,并且由几个核心组件构成:视觉编码器、语言模型以及投影仪,这些组件共同工作以桥接视觉和文本两种模态的嵌入。VILA-U通过预训练期间将离散视觉标记与文本输入对齐,并利用自回归图像生成技术,在高质量数据集上可以实现与扩散模型相媲美的图像质量。原创 2024-11-15 06:00:00 · 394 阅读 · 0 评论 -
Meta AI最新推出的长视频语言理解多模态模型LongVU分享
LongVU是由Meta AI团队推出的一种专注于长视频语言理解的多模态模型。LongVU的架构设计包括使用DINOv2技术去除冗余帧,融合剩余帧的特征,通过跨模态查询选择性地减少视觉标记,根据时间依赖关系进行空间标记压缩,以进一步适应大型语言模型的有限上下文长度。LongVU利用基于文本引导的跨模态查询来选择性地减少视频帧的特征,能保留与文本查询最相关的帧的详细信息,将其他帧减少到低分辨率的标记表示。原创 2024-11-08 06:00:00 · 538 阅读 · 0 评论 -
编程小能手,Yi-Coder模型部署
Yi-Coder是零一万物推出的一系列开源AI编程助手模型,专为提升代码生成、理解、调试和补全等任务的效率而设计。Yi-Coder能够处理长达128K tokens的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。Yi-Coder支持52种主要编程语言,包括但不限于Java、Python、C++、JavaScript等,能够在代码生成和跨文件代码补全方面表现优异。原创 2024-11-01 06:00:00 · 595 阅读 · 0 评论 -
阿里最新开源多模态大模型Ovis部署
Ovis是由阿里国际AI团队开发的一款多模态大模型,它在图像理解任务上达到了SOTA水平。Ovis能够处理和理解多种不同类型的数据输入,如文本、图像等,与大型语言模型相比,它在处理非文本数据方面有显著优势。Ovis模型的特点包括创新的架构设计、高分图像处理能力、全面的数据优化、卓越的模型性能,以及全部开源可商用的优势。Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现,例如可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。原创 2024-10-21 06:00:00 · 693 阅读 · 0 评论 -
超GPT3.5性能,无限长文本,超强RAG三件套,MiniCPM3-4B模型分享
MiniCPM3-4B是由面壁智能推出的一个高性能的端侧AI大模型。MiniCPM3-4B具备32k的上下文窗口,这意味着它可以处理更长的文本序列,这对于需要长时间依赖关系的任务尤其重要。MiniCPM3-4B通过使用LLMxMapReduce技术,MiniCPM3-4B能够有效地扩展其上下文理解能力,处理无限长的文本。该模型还具备强大的功能拓展性,如完整的system prompt function calling和code interpreter等能力,使其能够轻松连接外部工具和系统,提供更加便捷原创 2024-10-14 06:00:00 · 844 阅读 · 0 评论 -
最新融合多模态的理解和生成的大一统transform架构,show-o模型部署
Show-o模型是一个由字节跳动和新加坡国立大学联合发布的统一多模态理解和生成模型。Show-o通过结合自回归和(离散)扩散建模,能够在不同的模态间进行灵活转换,处理视觉问答、文本到图像生成、文本引导的修复/外推等多种任务。Show-o采用了一个统一的Transformer架构来处理多模态任务,这使得模型可以在不同的任务之间共享参数,从而减少了训练成本并提高了模型的泛化能力。与传统的自回归模型相比,Show-o能够根据输入和输出的模态自适应地调整其处理方式,这种灵活性使其在处理混合模态数据时表现出色。原创 2024-09-13 06:00:00 · 729 阅读 · 0 评论 -
支持黑神话悟空的超长视频理解,Qwen2-VL多模态大模型分享
Qwen2-VL是阿里巴巴达摩院开发的一款先进的视觉多模态人工智能模型。Qwen2-VL能够处理包括图像、视频在内的多种模态数据,这意味着它不仅能够理解静态图像,还能解析动态视频内容,为更广泛的应用场景提供了可能。Qwen2-VL模型特别针对长文本和长视频的理解进行了优化,能够处理超过20分钟的视频内容,并且对于长文本也有很好的理解能力。Qwen2-VL能够读懂不同分辨率和不同长宽比的图片,在多个视觉理解基准测试中取得了全球领先的表现,如MathVista、DocVQA、RealWorldQA、MTV原创 2024-09-09 06:00:00 · 794 阅读 · 0 评论 -
微软最新轻量级、多模态Phi-3.5-vision-instruct模型部署
Phi-3.5-vision-instruct模型是一款微软推出的Phi-3.5系列模型中集成了文本和图像处理能力的多模态AI模型。Phi-3.5-vision-instruct拥有42亿参数,并支持128K Token的上下文长度,特别适合处理复杂的多帧视觉任务。Phi-3.5-vision-instruct模型在图像理解、光学字符识别、图表与表格分析,以及视频摘要等任务中表现出色,并在MMMU、MMBench和TextVQA等基准测试中展现了优异的性能。随着多模态模型的重要性日益增加,预计Phi-原创 2024-09-02 06:00:00 · 1111 阅读 · 0 评论 -
最新视频合成后调优技术ExVideo模型部署
ExVideo是一种新型的视频合成模型后调优方法,其核心目标在于扩展现有视频合成模型的能力,使其能够生成更长时间的视频内容。ExVideo提出了一种新的后调优策略,使得在不对整个模型进行大规模重训的情况下,仅通过对模型中时序相关组件的微调,就能够显著增强其生成更长视频片段的能力。尽管视频长度增加,但ExVideo不会影响模型的泛化能力,即模型仍然能够生成多样化风格和分辨率的视频。ExVideo的应用场景广泛,包括影视制作、虚拟现实、社交媒体、广告行业、游戏开发、教育和培训以及数据可视化等。原创 2024-08-30 06:00:00 · 1451 阅读 · 0 评论 -
超越GPT4V,最强多模态MiniCPM-V2.6模型分享
MiniCPM-V2.6是由面壁智能开发的一款强大的端侧多模态人工智能模型,它被设计用于处理和理解多种类型的数据,如文本、图像和视频。MiniCPM-V 2.6模型以其卓越的token密度(即每个视觉token编码的像素数量)表现出色,处理180万像素图像时仅产生640个token,比大多数模型少75%。MiniCPM-V2.6在端侧性能上全面对标GPT-4V,这是OpenAI的多模态模型之一,意味着在单图、多图和视频理解等方面,MiniCPM-V2.6能够达到与GPT-4V相媲美的水平。尽管性能强大原创 2024-08-26 06:00:00 · 1635 阅读 · 0 评论 -
首个原生自训练Anole模型详细落地经验分享
Anole模型是首个开源的自回归、原生多模态大模型,它通过创新性微调,实现了文本与图像的无缝交织。Anole模型的技术创新在于其能够通过纯粹的"token"自回归预测,无需复杂的扩散模型,即可生成文字与图像的交替序列。Anole模型使用约6,000张图像数据集进行局部微调,展示了高效的学习能力。原创 2024-07-08 06:00:00 · 997 阅读 · 1 评论 -
最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。原创 2024-07-05 06:00:00 · 2666 阅读 · 0 评论 -
打赢GPT-4V之多模态模型:CogVLM2最新落地经验分享
CogVLM2通过深度学习架构创新,实现了视觉、文本、语音等多模态数据的高效融合。这种融合不仅限于基本的联合表示学习,而是深入到语义层面,使得模型能够理解复杂情境下不同模态信息的关联与交互。在多项基准测试中,CogVLM2展现出了卓越的性能,包括但不限于图像描述生成、视觉问答、图文匹配及多模态对话等任务。原创 2024-06-24 22:11:02 · 1055 阅读 · 0 评论