自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 收藏
  • 关注

原创 智源开源多模态向量模型BGE-VL:多模态检索新突破

BGE系列模型自发布以来广受社区好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。MegaPairs 结合多模态表征模型、多模态大模型和大语言模型,在海量图文语料库中高效挖掘多模态三元组数据。。本次发布的版本涵盖 2600 万条样本,为多模态检索模型的训练提供了大规模、高价值的数据支持。

2025-03-06 17:37:10 714

原创 DeepSeek和OpenAI、xAI、Anthropic哪家强?FlagEval智源评测

2025年伊始,多家顶尖大模型企业如DeepSeek、xAI、OpenAI和Anthropic相继推出了革新性产品。其中,DeepSeek-R1、Grok3、OpenAI的o1、o3和GPT-4.5-preview、Claude-3.7-sonnet等模型引发了业界的广泛关注和热烈讨论。智源研究院FlagEval大模型评测平台基于长期进行大模型评估的专业视角和严谨的评估标准,对上述前沿模型开展了全面而深入的对比评测。本次评测聚焦大模型的两大核心能力:语言处理能力和图文理解能力。

2025-03-05 13:47:01 607

原创 智源开源FlagOS升级:首次实现DeepSeek-R1满血版多种芯片高效快速部署

它给用户带来以下几个重要价值。是由智源牵头,与多个厂商共同打造的面向多元AI芯片的统一、开源的系统软件技术栈,包括支持多种AI芯片的高效并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems,以及支持多种AI芯片的统一通信库FlagCX等关键技术。智源秉承科学严谨的方法,发布的多芯片版本,在各个芯片服务器上,均与英伟达芯片上的DeepSeek-R1进行严格评测,保证在不同芯片架构上的DeepSeek-R1版本与原始英伟达版本效果对齐,同样优秀。

2025-02-25 11:13:59 931

原创 智源研究院与乐聚机器人成立具身智能联合实验室

此次与乐聚机器人共建联合实验室,将进一步促进具身智能创新生态以及产学研协同发展,支撑具身智能技术产业化。2025年1月13日,北京智源人工智能研究院(简称“智源研究院”)和乐聚(深圳)机器人技术有限公司(简称“乐聚机器人”)正式达成合作,双方将成立具身智能联合实验室,集中优势资源,共同研发面向导览导购、家居康养和工业等应用场景的高性能多模态大模型。未来,智源研究院与乐聚机器人将充分发挥互补优势,共同打造具备语音、语言和视觉全模态类人能力的人形机器人中枢系统,实现在真实场景的应用落地。

2025-01-23 16:39:09 579

原创 智源研究院发布2025十大AI技术趋势

2025-01-13 10:27:27 111

原创 智源研究院与浪潮信息、北京开源芯片研究院达成战略合作,共筑多元AI芯片开源生态

以大模型需求为导向,面向多元芯片,发挥Triton编译器开源及轻量级优势,为产业提供易适配、高性能的算子实现方案,此次,智源研究院携手浪潮电子信息产业股份有限公司、北京开源芯片研究院,将进一步推动基于Triton的统一、开源生态发展,为大模型和人工智能技术产业落地提供创新活力。2024年12月25日,智源研究院与浪潮电子信息产业股份有限公司、北京开源芯片研究院分别达成战略合作协议,共同打造基于Triton算子库的面向多元AI芯片的开源技术生态体系,赋能大模型与人工智能产业发展。

2024-12-25 16:27:21 358

原创 智源研究院与安谋科技达成战略合作,共建开源AI“芯”生态

通过与智源研究院的战略合作,充分发挥双方的技术积累与生态资源,实现优势互补、协同创新,基于成熟先进的Arm架构与开源开放的Triton算子库,共筑统一、易用、开放的AI‘芯’生态。12月25日,智源研究院与安谋科技(中国)有限公司(以下简称“安谋科技”)与正式签署战略合作协议,双方将面向多元AI芯片领域开展算子库优化与适配、编译器与工具链支持、生态系统建设与推广等一系列深入合作,共同打造基于Arm架构的开源技术生态体系,赋能国内大模型与人工智能产业的高速发展。

2024-12-25 16:25:10 530

原创 智源线虫登上Nature子刊封面,具身元年结尾意味深长

在秀丽隐杆线虫中,运动、觅食等行为是由其神经回路、肌肉生物力学和实时环境反馈之间的协调互动驱动的。然而,传统的模型往往将神经系统或身体环境孤立开来,未能捕捉到支撑复杂行为的整体“大脑-身体-环境”交互。在生物物理学上精确模拟这种复杂性仍然是一个挑战,这也突显了构建完整的闭环模型的必要性,以连接神经网络、生物力学和环境反馈。智源研究院生命模拟研究中心旨在开发这样一个闭环的生物物理精细模型(“生命模型”),以精确模拟生物体在神经、生物力学和环境互动中的复杂行为。

2024-12-25 14:25:56 997

原创 智源大模型通用算子库FlagGems四大能力升级 持续赋能AI系统开源生态

FlagGems使用Triton语言开发,在Triton生态开源开放的基础上,为多种AI芯片提供开源、统一、高效的算子层生态接入方案。FlagGems已与智源大模型并行训练及推理框架FlagScale(https://github.com/FlagOpen/FlagScale.git)进行集成使用,该框架能实现不同代际、不同架构芯片之间的异构混合训练,已支持智源内外10多个模型的端到端训练与推理,涵盖稠密与稀疏模型,涉及语言与多模态领域,参数规模到千亿量级,并实现多款芯片的适配。教育是生态建设的未来。

2024-12-19 17:07:35 1175

原创 智源发布FlagEval“百模”评测结果 丈量模型生态变局

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

2024-12-19 17:05:31 643

原创 智源研究院与腾讯达成战略合作,推动大模型技术前沿探索和应用落地

智源研究院院长王仲远在签约仪式上表示,“智源研究院是专注于人工智能技术原始创新的新型研发机构,持续引领大模型的技术发展方向,布局多模态世界模型、具身智能、AI for Science 等前沿领域并取得了一系列的国际领先的科研成果与进展;希望腾讯充分发挥在云计算、大数据、人工智能等领域的技术积累,与智源人工智能研究院的研究成果相互融合,共同探索大模型技术的新应用、新场景,探索人工智能技术的无限潜力。

2024-12-19 17:01:47 202

原创 See Video, Get 3D,智源开源无标注视频学习3D生成模型See3D

1)数据集:团队提出了一个视频数据筛选流程,自动去除源视频中多视角不一致或观察视角不充分的视频,构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像,可通过自动化流程随互联网视频量的增长而不断扩充。2)模型:标注大规模视频数据的相机信息成本极高,且在缺乏显式3D几何或相机标注的情况下,从视频中学习通用3D先验是更具挑战的任务。

2024-12-11 10:44:03 646

原创 智源Aquila-VL-2B模型成为首个Linux基金会MOF评级达到“最开源”Class I等级的模型

这一级别代表了最高标准的开放性,涵盖了模型架构、数据预处理代码、训练代码、推理代码、评估代码、模型参数(包括中间参数和最终参数)、数据集、评估数据、模型卡、数据卡、技术报告、研究论文以及评估结果。:这是开放性要求的入门级别,包括模型架构、模型参数(最终参数)、模型卡、数据卡、技术报告和评估结果。Aquila-VL-2B模型下载地址:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen。表1.Aquila-VL-2B在多模态榜单上的评测结果分析。

2024-12-05 10:00:00 352

原创 智源六周年 | 矢志星海,奋楫争先

2024-11-28 13:53:00 152

原创 智源行业应用大模型挑战赛开启报名:挖掘数据潜能,共创行业新篇

在此背景下,智源研究院于2024 年 6 月发布了全球最大的中英文行业预训练数据集 IndustryCorpus1.0,涵盖 18 种行业分类,达 3.4TB ,并联合多方组织了行业数据场景应用创新大赛一期,收获了良好的成效。基于行业数据集2.0,智源研究院联合魔搭社区、阿里云天池平台、中国互联网协会人工智能工委会、中国AIIA联盟数据委员会共同发起行业数据应用挑战赛,邀请企业技术团队和广大开发者共同参与,旨在助力更多行业高效利用大模型的技术赋能生产力,产生更多的创新和行业应用,推动垂直行业的快速发展。

2024-11-28 13:46:25 370

原创 世界首次!智源研究院实现数字孪生心脏电功能超实时仿真

虚拟生理心脏的构建可利用生理组学的研究方法,综合分子生物学、生物化学、生理学、解剖学及临床医学的最新成果,数学化以及模式化地整合从基因、蛋白质、细胞、组织到器官的解剖(多物理尺度:空间尺度跨越10^9量级,跨时间尺度:时间尺度跨越10^15量级,如图1所示)、生理和生化信息,应用计算机强有力的计算和图形显示能力,通过赋予其心脏所具有的动力学特性、生化特性和各种生理病理特点,使之从形态、结构和功能等方面逼真地再现心脏的生理和病理活动过程。随着计算技术的发展,计算机仿真成为了一种新兴且强大的研究工具。

2024-11-28 13:33:22 654

原创 智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

在本工作中,我们为了提升开源模型的表现,构建了包含千万级别数据的多模态指令数据集Infinity-MM,通过增加数据规模来提升模型性能。同时,提出了一种基于开源模型和标签体系的指令数据合成方法,进一步生成高质量指令数据,扩展了数据集的规模。最终,我们基于Infinity-MM训练了Aquila-VL-2B模型,在同等规模下实现了SOTA效果。之后我们会从以下几方面对工作进行改进:1、进一步完善数据合成方法,增加合成数据的多样性和复杂性。2、进一步增加文档处理类数据数据的规模。

2024-10-30 10:29:15 825

原创 图像生成新范式:智源推出全能视觉生成模型 OmniGen

近年来,许多文生图模型在生成式 AI 的浪潮中脱颖而出。然而,这些出色的专有模型仅能基于文本生成图像。当用户产生更灵活、复杂、精细等的图像生成需求时,往往需要额外的插件和操作。例如,若想参考任一姿态生成图像,常规方法是:用姿态检测器从参考图像中估计姿态作为条件输入,并加载对应的 Controlnet 插件,最后提取条件输入的特征馈入扩散模型生成图像。此外,若想基于合照中的特定人物生成新图像,流程更加繁琐,需要裁剪图像以确保结果图像仅包含目标人物。

2024-10-29 11:27:34 860

原创 一块显卡理解一部完整电影!智源联合多所高校推出小时级的超长视频理解大模型Video-XL

该工作提出了Video-XL模型,利用语言模型的压缩能力,仅需一块80G显卡即可理解小时级别的视频;除此之外,Video-XL在多个主流长视频理解基准评测上表现优异。Video-XL有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。目前。Video-XL的模型代码均已开源,以促进全球多模态视频理解研究社区的合作和技术共享。

2024-10-28 17:04:05 941

原创 智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

下一token预测已在大语言模型领域实现了 ChatGPT 等突破,但是在多模态模型中的适用性仍不明确,多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

2024-10-21 14:17:26 1308

原创 登顶!智源BGE首开国产模型Hugging Face月度下载全球第一

BGE(BAAI General Embedding)系列模型是北京智源人工智能研究院研发的开源通用向量模型,该模型专为各类信息检索及大语言模型检索增强应用而打造。自2023年8月发布首款模型BGE v1,历经数次迭代,BGE已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。BGE不仅性能综合卓越,多次大幅刷新BEIR、MTEB、C-MTEB等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据”向社区完全公开。

2024-10-11 15:40:31 914

原创 智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

每个大模型会与其他模型进行多场辩论,最终根据获胜的积分计算模型排名。初步实验表明,参与辩论的大模型经过prompt调优后表现会有很大的提升,欢迎各模型厂商扫描图中二维码或发送邮件至flageval@baai.ac.cn报名参与模型辩论评测,智源将提供免费的模型辩论调试服务。在对大模型辩论的技术路径与对战结果有效性进行初步分析之后,智源研究院发现通过辩论这种交互性对战形式,能够凸显模型之间的差距,并可基于少量的数据样本计算模型有效排名,故推出基于众测的中文大模型辩论平台FlagEval Debate。

2024-09-30 16:51:45 649

原创 智源研究院与百度达成战略合作 共建AI产研协同生态

2019年3月,百度推出文心大模型1.0,现已迭代到文心大模型4.0,文心一言累计用户规模超3亿,飞桨文心生态已凝聚1465万开发者,服务37万家企事业单位,创建95万个模型。相信智源与百度的合作将加速大模型前瞻技术研究与应用的进程,形成联动效应,共同为大模型产业发展助力。2024年9月24日,北京智源人工智能研究院(简称“智源研究院”)与北京百度网讯科技有限公司(简称“百度”)正式签署战略合作协议,双方将充分发挥互补优势,在大模型等领域展开深度合作,共同构建人工智能产研协同生态。

2024-09-25 10:35:53 840

原创 行业革新,数据先行:智源研究院数据与行业应用 Workshop第三期

9月25日周三下午14点,智源人工智能研究院将在北京海淀区智源大厦举办“数据与行业应用 Workshop”第三期,与大家共话数据新基建和行业应用的未来。欢迎查看议程,扫码报名参加。

2024-09-20 13:32:29 247

原创 签署《AI安全国际对话威尼斯共识》 智源持续推动人工智能安全发展

近日,由AI安全国际论坛(Safe AI Forum)和博古睿研究院(Berggruen Institute) 共同举办的第三届国际AI安全对话(International Dialogues on AI Safety)在威尼斯举办。

2024-09-19 14:36:32 1521

原创 智源推出下一代检索增强大模型框架MemoRAG

检索增强生成(Retrieval-Augmented Generation,RAG),因其能够有效解决大语言模型(LLM)面临的多个问题,得到广泛应用。例如,LLM生成虚假信息(Hallucination)或使用过时内容(Out-dated knowledge)。此外,LLM因上下文窗口长度的限制,在处理大量数据时效率较低,而RAG通过引入专门的检索工具,从海量数据库中获取有用知识,使LLM基于更可靠的知识背景生成准确的回答。

2024-09-19 10:19:23 928

原创 智源研究院担任大模型测试基准研究组联合组长单位

近日,智源研究院推出了全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含网页端和移动端访问入口,为用户提供高效便捷的模型对战评测体验。目前,FlagEval大模型评测体系,已从主要面向语言模型扩展到了视频、语音、多模态模型领域,覆盖众多国内外主流的高影响力的开源模型以及闭源模型,基于主观客观结合以及开卷闭卷综合的评测方法,定期对模型评测结果进行发布与更新。

2024-09-06 09:19:50 358

原创 智源研究院推出全球首个包含文生视频的模型对战评测服务

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。秉承FlagEval评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。

2024-09-05 10:08:52 570

原创 智源研究院举办第二期“数据与行业应用Workshop”

InfinityInstruct2.0,在6月发布的Infinity Instruct 1.0基础之上,专门针对数学这一重点瓶颈领域,通过合成可无限扩增的PoT数据的方法,大幅提升了7B基础语言模型和基础代码模型的zero-shot数学能力,并构建了第一版对齐数据集,经验证可大幅提升微调模型的对话性能。来自智源研究院、海天瑞声、百川智能、作业帮、医渡云、Datastrato的技术和产业专家共同探讨了数据集构建、数据策略与数据目录建设以及大模型在教育、医疗等行业的落地应用。

2024-09-03 09:37:20 495

原创 FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓,新增6款新发布模型

在Sora T2V Prompts数据集上,Runway Gen-3在总体印象分、图文一致性、真实性、视频质量和美学质量五个维度上均表现优异,除Sora外位居第一,再次证明其强大的综合实力。此外,可灵在真实性方面也有不错的表现。本次评测采用的数据集和主观评价方法与今年5月开展的文生视频模型评测高度一致,并沿用了部分评测结果作为参考基准,以保持新旧模型评测标准的一致性,使两次评测结果具有可比性。:在动态表现上较为突出,但在人物生成的真实性、视频质量和镜头布局方面存在不足,限制了其在高质量视频生成中的应用。

2024-08-27 14:46:07 806

原创 线下参会报名丨智源数据与行业应用 Workshop 第二期

北京智源人工智能研究院深耕数据工具研发与数据平台建设,并持续推动模型与垂直场景的应用,旨在通过举办“数据与行业应用系列Workshop”活动,广泛链接生态伙伴,共同探索数据新基建和行业创新应用。2024年8月29日,智源研究院将联合中国互联网协会人工智能工委会、中国AIIA联盟数据委员会、思否、优快云、51CTO等合作伙伴开展。等技术和产业专家将分享指令数据集在数学和对齐领域的探索、预训练数据策略、数据目录建设、大模型在教育与医疗等领域的应用,欢迎报名参加!

2024-08-26 14:36:18 211

原创 智源千万级指令微调数据集Infinity-Instruct持续迭代,Llama3.1仅微调即可接近GPT-4

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布,近日完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity-Instruct-7M包含744万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。

2024-08-15 15:05:47 3412 5

原创 智源研究院举办第一期数据与行业应用Workshop

北京市科学技术研究院构建的北科院政务大模型,可对各类信息进行快速分析、处理与反馈,应用于智能问答、文本撰写、文章速读、知识库管理、文档智能标签、数据分析等场景。其中,预训练数据处理使用了基于“规则+模型”的多重质量提升方案,指令数据处理则使用了基于“指令复杂性+回复质量+多轮相关性”的筛选方案,以确保数据质量。面向大模型的数据工程核心旨在提升大模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素。

2024-08-14 17:29:20 438

原创 智源发布三款BGE新模型,再次刷新向量检索最佳水平

近期,以大语言模型(LLM)为基础的向量模型(embedding model)变得愈发流行。得益于大语言模型强大的语义理解能力,相关模型在下游任务中的检索精度得到了显著的提升。然而,当前基于大模型的向量模型(LLM-backended embedding model)仍然单纯依靠标签数据进行微调,缺乏灵活应对不同下游任务的能力。与此同时,当前的模型大都支持英文且主要面对向量检索任务(dense retrieval),相比之下,针对其他语言以及更多检索任务的模型较为不足。

2024-07-31 10:22:43 3399 2

原创 Tele-FLM系列再升级!52B对话模型发布、全球首个万亿单体稠密模型开源

由北京智源人工智能研究院和中国电信人工智能研究院(TeleAI)联合研发的Tele-FLM(又名FLM-2)系列大模型近日再次升级,发布52B指令模型FLM-2-52B-Instruct(中文对话能力达到GPT-4的90%),并开源全球首个万亿单体稠密模型Tele-FLM-1T。相关技术报告介绍了52B模型监督微调的相关技术与方法,以及通过生长式方法高效、低成本训练万亿模型的探索和实践。

2024-07-31 09:42:14 832

原创 FlagEval 7月榜丨新增29个模型评测结果,智源发布评估技术报告《AI大模型能力全景扫描》

智源研究院将长期以来在大模型评测的方法、流程和技术等维度的探索与实践,形成了第一期智源评估技术报告《AI大模型能力全景扫描》,持续推进大模型行业的蓬勃发展,报告建议支持开源开放建设,加强评测标准建设,强化协同研究,鼓励创新,推进行业应用,重视安全风险,优化监管,搭建产业生态。本次评测发现,大语言模型,国产模型主观能力整体有所提升;视觉语言新模型的能力有所提升,从本次指标上观察来看,使用强大的语言模型,如llama3可以无痛提升多模态模型的相关指标,但是否真正提升跨模态能力,还有待进一步的研究;

2024-07-19 12:34:55 493

原创 活动报名 | 智源研究院数据与行业应用Workshop

届时,智源的技术专家将介绍行业数据集和千万级指令微调数据集的构建思路和获取方法。更有来自北京科学技术研究院、航天信息、北大法宝、信通院的专家分享法律、政务、财税、城市安全管理等行业的落地应用。7月25日周四下午14点,智源人工智能研究院将联合中国互联网协会人工智能工委会、中国AIIA联盟数据委员会、共同举办数据与行业应用 Workshop~

2024-07-18 18:03:08 292

原创 大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议成功召开

本次会议为大模型评测技术厂商提供了一个开放的交流平台,通过各大厂商专家的专题分享报告以及会上交流,使参会者更深入了解了当前大模型评测技术框架、进展以及挑战,推进了大模型评测技术发展以及产业落地。7月12日,由北京智源人工智能研究院主办的大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议在智源大厦举办,来自百度、信通院、移动、联通、电信、浪潮、南方电网、南瑞、清华、北航等互联网大厂、科研机构、运营商、知名高校以及海外的50余位专家参加了此次会议。了解智源评测更多细节,请浏览官网。

2024-07-18 17:40:42 898

原创 无编码器多模态大模型EVE:原生多模态新方案

近期,关于多模态大模型的研究如火如荼,工业界的投入也愈发高涨。国外相继推出了炙手可热的模型,例如,以及。与此同时,国内的)、)、)、)、)等模型百花齐放。当前,视觉语言模型(VLM)通常依赖视觉编码器(Vision Encoder, VE)来提取视觉特征,再结合用户指令传入大语言模型(LLM)进行处理和回答。然而,目前面临的主要挑战在于视觉编码器和大语言模型的训练分离。这种分离导致视觉编码器在与大语言模型对接时引入了视觉归纳偏置问题,例如受限的图像分辨率和纵横比,以及强烈的视觉语义先验。

2024-07-17 17:38:44 1080

原创 “智星”科技人才招聘计划

​​​​投递链接🔗:

2024-07-17 17:15:02 226

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除