
机器人技术
文章平均质量分 78
机器人技术
吴脑的键客
凡人修仙,AGI散修。领域展开——四海皆兄弟!!!
展开
-
腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美
近日,腾讯在人工智能领域再下一城,其研发团队通过Hugging Face平台正式发布了全新AI模型GeometryCrafter。这一模型以其在开放世界视频中实现一致性几何估计的卓越能力,迅速成为科技圈的焦点。借助扩散先验技术(Diffusion Priors),GeometryCrafter不仅为视频内容的深度理解和处理带来了新的可能性,也为创作者和研究者提供了一把探索三维世界的“钥匙”。GeometryCrafter的核心亮点在于其能够从动态、复杂的开放世界视频中提取并生成一致的几何信息。原创 2025-04-03 07:06:47 · 306 阅读 · 0 评论 -
北京智源开源 RoboBrain :从抽象到具体的机器人操纵统一脑模型
近年来,多模态大语言模型(MLLM)的快速发展极大地推动了人工通用智能(AGI)的研究进展。通过利用来自互联网的海量多模态数据并结合自监督学习技术,MLLMs 在视觉感知和理解人类语言指令方面表现出了非凡的能力。然而,尽管 MLLMs 在一般任务中的表现令人印象深刻,但在具身场景中仍面临巨大挑战,尤其是在长视距操作任务中。在机器人学中,长视距操纵任务是机器人执行复杂任务的核心能力之一。这些任务通常涉及多个步骤和长期互动,例如 "在厨房准备一杯茶 "或 “在仓库完成物品分类”。原创 2025-03-28 07:24:17 · 715 阅读 · 0 评论 -
视觉语言AI新突破!伯克利发布TULIP模型,性能大幅超越现有技术
在人工智能领域,视觉语言模型的发展一直是研究的热点。如今,加州大学伯克利分校的研究团队带来了令人振奋的消息,他们发布了全新的TULIP(Towards Unified Language-Image Pretraining)模型,这一模型在视觉语言预训练方面取得了重大突破,尤其在以视觉为中心的任务中表现出色,克服了现有对比学习模型(如CLIP)的诸多局限。原创 2025-03-25 11:37:16 · 479 阅读 · 0 评论 -
OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升
继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。原创 2025-03-24 08:51:03 · 1127 阅读 · 0 评论 -
当机器人学会 “看懂” 三维世界:SpatialLM 如何破解具身智能的空间认知困局
在人工智能技术飞速发展的今天,机器对空间的理解和认知能力正逐渐成为研究的热点。SpatialLM作为一种创新的三维大型语言模型,正在这一领域掀起一场革命。本文将带你深入了解SpatialLM的核心技术、应用场景及其对未来的深远影响。原创 2025-03-21 09:30:47 · 1154 阅读 · 0 评论 -
昆仑万维开源R1V:多模态推理进入“思维链”时代,开启AI“眼见为实”的深度思考
当AI既能理解文本的抽象逻辑,又能解析图像的空间关系,并在两者间建立可解释的推理链条时,它便真正成为了人类的“第二大脑”。昆仑万维R1V的开源,不仅是技术的突破,更是一次理念的革新——多模态推理的未来,在于让机器像人类一样“看见思考的过程”。随着语音、视频等模态的逐步集成,我们或将见证一个“全模态深度思考”的AI新时代。原创 2025-03-19 11:26:04 · 704 阅读 · 0 评论 -
开源OCR工具olmOCR:高效实现 PDF 转文本,支持表格与手写识别
olmOCR 是一款开源的光学字符识别(OCR)工具,旨在高效地将 PDF 及其他文档转换为纯文本,同时保留自然的阅读顺序。这款工具不仅支持普通文本的提取,还能处理表格、数学公式和手写内容,极大地方便了用户对文档的处理需求。款工具的核心优势在于其高准确率。olmOCR 经过大量学术论文、技术文档及其他参考内容的训练,采用独特的提示技术来提高识别的准确性,并降低错误信息的生成。这使得用户在使用时能获得更为精准的转换结果。原创 2025-03-06 08:56:29 · 1216 阅读 · 0 评论 -
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。原创 2025-02-28 10:06:34 · 404 阅读 · 0 评论 -
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。原创 2025-02-24 07:00:00 · 1075 阅读 · 0 评论 -
阿里国际开源Ovis2系列多模态大语言模型 共有六个版本
此次开源的Ovis2 系列包括1B、2B、4B、8B、16B和34B六个版本,各个参数版本均达到了同尺寸的SOTA(State of the Art)水平。在多模态通用能力榜单上,Ovis2-34B位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。例如,Ovis2-34B在多模态通用能力和数学推理榜单上分别位列第二和第一,展现了其强大的性能。原创 2025-02-24 06:00:00 · 1021 阅读 · 0 评论 -
阶跃星辰开源集语音理解与生成控制一体化模型——Step-Audio
Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。高效数据生成链路。原创 2025-02-21 07:38:17 · 1512 阅读 · 0 评论 -
阶跃星辰开源通用OCR模型——GOT-OCR-2_0
GOT-OCR2 适用于多种任务,包括普通文档 OCR、场景文本 OCR、格式化文档 OCR,甚至表格、图表、数学公式、几何图形、分子式和乐谱的 OCR。虽然该模型的实现只会输出纯文本,但输出结果可以通过 pdftex、mathpix、matplotlib、tikz、verovio 或 pyecharts 等软件包进一步处理,以呈现所需的格式。该模型还可用于交互式 OCR,用户可通过提供坐标或区域边界框的颜色来指定要识别的区域。本模型由提供。可在此处找到。原创 2025-02-21 07:25:12 · 1087 阅读 · 0 评论 -
小红书团队开源语音识别 FireRedASR 和音频生成 FireRedTTS
FireRedTTS 是 FireRed 团队提出的一个开源基础文本到语音(TTS)框架。它旨在满足日益增长的个性化和多样化生成语音应用需求。该框架由三部分组成:数据处理、基础系统和下游应用。原创 2025-02-19 09:43:06 · 1702 阅读 · 0 评论 -
苹果ELEGNT框架让机器人更有温度,或改变人机互动
在21名参与者的测试中,具有表现力的动作显著提升了用户对机器人的参与度,特别是在播放音乐或对话等社交任务中。不过研究也发现,年长者对富有表现力的机器人动作接受度较低,这提示未来机器人行为可能需要根据用户偏好进行定制。苹果近期发布的一项研究显示,该公司正在开发名为ELEGNT的新框架,旨在让非人形机器人展现更自然、更富有表现力的动作,这可能为未来家用机器人的发展开辟新方向。(图片来源:Apple)视觉指南展示了为灯形机器人开发的富有表现力的动作词汇,包括基本手势和空间行为。(来源:Apple)原创 2025-02-10 07:13:30 · 251 阅读 · 0 评论 -
【DeepSeek-R1也可以做视觉任务了】Align-DS-V和QVQ一样实验增强视觉推理能力
Align-DS-V是DeepSeek-R1-Distill-Llama-8B中的一个实验性视觉语言模型,由PKU-Alignment团队和香港科技大学共同开发,重点是通过全模态对齐增强推理能力。原创 2025-02-08 11:42:23 · 946 阅读 · 0 评论 -
【下篇II】用于手机视觉、语音和多模态实时流媒体的 GPT-4o 级 MLLM
MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的型号。该模型以端到端方式构建,基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B,共有 8B 参数。代码示例语音指令MiniCPM-o-2.6 还能进行语音指令(又称语音创建)。 您可以对声音进行详细描述,模型将生成符合描述的声音。 如需了解更多 "指令到语音 "示例指令,请参阅 https://voxinstruct.github.io/VoxInstruct原创 2025-02-06 15:23:08 · 505 阅读 · 0 评论 -
【下篇】用于手机视觉、语音和多模态实时流媒体的 GPT-4o 级 MLLM
MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的型号。该模型以端到端方式构建,基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B,共有 8B 参数。原创 2025-02-06 15:11:36 · 183 阅读 · 0 评论 -
【中篇】用于手机视觉、语音和多模态实时流媒体的 GPT-4o 级 MLLM
MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的型号。该模型以端到端方式构建,基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B,共有 8B 参数。原创 2025-02-06 15:07:33 · 840 阅读 · 0 评论 -
【上篇】用于手机视觉、语音和多模态实时流媒体的 GPT-4o 级 MLLM
自去年6月圈内知名的已经过去了很久,我也因为海内外AI澎湃的发展,而忙于学习提升自我,都没怎么关注面壁这家有趣的国产AI公司了,呵呵🤭羞愧啊,羞愧啊。原创 2025-02-06 14:52:47 · 1432 阅读 · 0 评论 -
阿里云通义开源Qwen2.5-VL,视觉AI超越Claude 3.5
阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中的关键信息。原创 2025-02-03 06:00:00 · 1133 阅读 · 0 评论 -
300倍体积缩减!Hugging Face推SmolVLM模型:小巧智能,手机也能跑AI
我们之前发布的 Idefics80B 在2023年8月是首个开源的视频语言模型,而 SmolVLM 的推出则实现了300倍的体积缩减,同时性能提升。” 马拉菲奥提在接受《创业者日报》采访时表示。SmolVLM 证明小型高效架构同样能够实现出色的表现,未来 AI 的发展或许将不再是追求更大的模型,而是追求更灵活高效的系统。SmolVLM-256M 模型的 GPU 内存需求不足1GB,性能却超过了其前代 Idefics80B 模型,这一后者的规模是其300倍,标志着实用 AI 部署的一个重大进展。原创 2025-01-25 12:03:16 · 312 阅读 · 0 评论 -
LLaSA: 为基于 LLaMA 的语音合成扩展训练时间和测试时间计算功能
我们的模型 Llasa 是一个文本到语音(TTS)系统,它扩展了基于文本的 LLaMA(1B、3B 和 8B)语言模型,纳入了 XCodec2 编码本中的语音标记,其中包含 65,536 个标记。我们在一个包含 250,000 小时中英语音数据的数据集上对 Llasa 进行了训练。该模型既能完全根据输入文本生成语音,也能利用给定的语音提示生成语音。原创 2025-01-25 11:26:56 · 974 阅读 · 0 评论 -
月之暗面Kimi多模态图片理解模型 API 发布
2025年1月15日,北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布,该模型完善了moonshot-v1模型系列的多模态能力,助力Kimi更好地理解世界。Vision模型具备强大的图像识别能力,能准确识别图像中的复杂细节和细微差别,无论是食物还是动物,都能区分出相似但不相同的对象。例如,面对16张相似的人眼较难区分的蓝莓松饼和吉娃娃图片,Vision模型能精确地区分和识别。原创 2025-01-16 08:06:30 · 683 阅读 · 0 评论 -
QVQ-72B-Preview已经是过去式了,新重量级视觉大模型出现了
我们非常高兴地介绍我们的 MiniMax-VL-01 模型。它采用了多模态大型语言模型领域常用的 "ViT-MLP-LLM "框架。该模型由三个关键部分进行初始化和训练:用于视觉编码的 3.03 亿参数视觉变换器(ViT)、用于图像适配的随机初始化双层 MLP 投影器以及作为基础 LLM 的 MiniMax-Text-01。MiniMax-VL-01 具有显著的动态分辨率功能。输入图像按预先设置的网格调整大小,分辨率从 336×336 到 2016×2016,并保留 336×336 的缩略图。原创 2025-01-15 12:31:50 · 1083 阅读 · 0 评论 -
一体化 AI 框架Sa2VA:实现图像与视频的深度理解
研究结果表明,Sa2VA 在引用分割任务中取得了最先进的结果,其 Sa2VA-8B 模型在 RefCOCO、RefCOCO + 和 RefCOCOg 上的 cIoU 评分分别为81.6、76.2和78.9,超越了 GLaMM-7B 等之前的系统。该模型通过最小化一次性指令调优,支持广泛的图像和视频任务,克服了现有多模态大语言模型的局限性。此外,Sa2VA 在视频基准测试中的表现也显著超过了之前的状态 - of-the-art VISA-13B,显示出其在图像和视频理解任务中的高效性与有效性。原创 2025-01-14 09:45:41 · 888 阅读 · 0 评论 -
【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器
我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。原创 2025-01-07 17:10:29 · 1570 阅读 · 0 评论 -
【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件
在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。原创 2025-01-07 16:58:16 · 1607 阅读 · 0 评论 -
重磅:中国开源首个百万级机器人数据集,具身智能迎来ImageNet时刻
从客厅插花到厨房做饭,从超市收银到工厂分拣,AgiBot World涵盖了家居、餐饮、工业、商超和办公五大核心场景,收录了八十余种日常生活技能。智元还透露了2025年的规划蓝图,包括开源全量数据、发布仿真数据集、推出具身基座大模型、发布完整工具链,并将举办一系列挑战赛。这些先进的硬件设施使机器人能够完成从简单的抓取放置到复杂的双臂协同操作等多样化任务。这个开源项目的发布,不仅标志着中国在具身智能领域的重要突破,也为全球机器人研究提供了宝贵的数据资源,有望成为推动具身智能发展的重要里程碑。原创 2025-01-05 08:10:28 · 379 阅读 · 0 评论 -
字节抖音团队基于qwen训练了SAIL-VL
Sail-VL 得益于高质量的数据和精心设计的训练配方。我们发现,数据的质量、数量和课程训练管道的设计对模型性能至关重要。有了适当的设计和数据,模型的容量就能随着各阶段数据的扩展而有效扩展,从而提高性能。更多详情即将发布。我们的团队使用 VLMEvalKit 变体对结果进行评估。原创 2025-01-03 07:36:26 · 1011 阅读 · 0 评论 -
宇树科技回应机器人表演时翻车 倒地后抽搐:正常现象 修下就好
机器人倒地后的狼狈,与展台后面大屏幕上轮播的宣传视频形成了鲜明的对比,视频中机器人展示着弹跳、爬楼等灵活的动作,而现实中的机器人去倒地“抽搐”,反差感极强。据悉,宇树科技Unitree H1是宇树首款通用人形机器人,宇树介绍,H1拥有稳定的步态和高度灵活的动作能力,能够在复杂地形和环境中自主行走和奔跑。此外,宇树科技还表示,公司的机器人和机器狗平均半年会迭代一次,预计寿命大约两年左右(可能会出现故障),有故障可以进行维修。更离谱的是,机器人倒地后发生抽搐现象,很像人类的全身抽搐动作。原创 2024-12-28 09:19:13 · 303 阅读 · 0 评论 -
理想CEO李想回应激光雷达和纯视觉之争:在中国用激光雷达是为了安全
2024理想AI Talk对话迎来第二场。被问及“特斯拉没有用激光雷达,你们为什么要用”,理想汽车CEO李想坦言,保留激光雷达,还是为了安全。李想表示,很多人不太理解说,为什么要保留激光雷达,还是为了安全。是不是因为你技术不好?不是,中国和美国是不一样的,如果你经常在中国晚上夜路开车,你会看到有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上。“至少我们今天的摄像头,能够在深夜里没有光线下看到的距离,其实只有100米出头。但是激光雷达,在没有任何光线的情况下是可以看到200米的。原创 2024-12-27 12:31:07 · 335 阅读 · 0 评论 -
智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作
与2023年12月开源的第一版CogAgent模型相比,CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显著提升,并支持中英文双语的屏幕截图和语言交互。输出则涵盖思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。原创 2024-12-27 09:20:14 · 363 阅读 · 0 评论 -
Qwen 的 QVQ-72B-Preview:向增强型视觉推理迈出一步
要开始使用 QVQ-72B-Preview,Qwen 提供了一个名为 `qwen-vl-utils`的工具包来处理各种可视化输入类型。开源语言模型 Qwen 最近发布了 QVQ-72B-Preview,这是一个旨在提高视觉推理能力的实验研究模型。Qwen 的 QVQ-72B-Preview 是增强大型语言模型视觉推理能力的重要一步。:在多步骤视觉推理中,模型可能会失去对图像内容的关注,与 Qwen2-VL-72B 相比,它对基本识别任务的改进并不显著。:它可能会陷入递归循环,导致冗长且可能没有结论的响应。原创 2024-12-25 10:30:06 · 1215 阅读 · 0 评论 -
新型物理模拟系统Genesis训练机器人的速度比现实世界快43万倍
本周四,一大批大学和私营企业的研究人员发布了Genesis,这是一个新的开源计算机模拟系统,可让机器人在模拟现实中练习任务,速度比现实世界快 43 万倍。研究人员还可以使用人工智能代理根据文本提示生成三维物理模拟。加速模拟意味着,只需几个小时的真实计算机时间,用于驾驶机器人的神经网络就能在虚拟世界中学习拾取物体、行走或操作工具,相当于几十年的时间。“一个小时的计算时间可以让机器人获得 10 年的训练经验。这就是尼欧如何在《黑客帝国》的道场中眨眼间学会武术的。原创 2024-12-20 12:27:56 · 1518 阅读 · 0 评论 -
去除背景噪声 阿里通义实验室开源语音处理技术ClearerVoice-Studio
阿里巴巴达摩院的通义实验室近期宣布开源一项名为ClearerVoice-Studio的语音处理技术,旨在提升语音质量和可懂度。随着语音技术的广泛应用,语音质量受到越来越多人的关注,尤其是在环境噪声、混响和设备拾音等情况下,语音处理技术的需求日益迫切。ClearerVoice-Studio集成了语音增强、语音分离和音视频说话人提取等功能,通过融合复数域深度学习算法,大幅提升了语音降噪和分离的性能。该技术能够最大限度地消除背景噪声,保留语音清晰度,同时保持语音失真最小化。原创 2024-12-13 06:00:00 · 1123 阅读 · 0 评论 -
【抱脸社最新力作】SmolVLM-Instruct:State-of-the-Art级小型视觉语言模型
SmolVLM 利用轻量级 SmolLM2 语言模型,提供紧凑而强大的多模态体验。图像压缩:与 Idefics3 相比,我们对图像进行了更彻底的压缩,从而使模型能够更快地推断并使用更少的 RAM。视觉标记编码: SmolVLM 使用 81 个视觉标记对大小为 384×384 的图像片段进行编码。较大的图像被分割成不同的片段,每个片段单独编码,从而在不影响性能的情况下提高了效率。有关培训和架构的更多详情,请参阅我们的技术报告。原创 2024-12-09 11:48:01 · 1065 阅读 · 0 评论 -
现在听听这个 世界上最灵活的音响首次亮相
英伟达™(NVIDIA®)公司新推出的生成式人工智能模型可以使用文本和音频作为输入,创建音乐、声音和音效的任意组合。Share 一组生成式人工智能研究人员创造了一把声音 “瑞士军刀”,用户只需使用文本就能控制音频输出。虽然一些人工智能模型可以谱曲或修改声音,但没有一个能像这款新产品那样灵巧。它被称为(Foundational Generative Audio Transformer Opus 1 的缩写),可以生成或转换任何音乐、声音和声音的组合,并使用文本和音频文件的任何组合进行提示描述。原创 2024-11-26 10:24:26 · 763 阅读 · 0 评论 -
Spirit LM:Meta AI 的无缝文本和语音生成多模态模型
SPIRIT LM,即 SPoken 和 WRitten 交错变换语言模型,是 Meta AI 在构建多模态基础模型方面的最新尝试。传统上,GPT-3 和 LLaMA 等大型语言模型(LLM)在基于文本的任务中表现出色,而最近 SpeechLM 的进步则推动了语音理解的发展。SPIRIT LM 的目标是将这两种模式–语音和文本–融合为一个能够跨模式生成和理解的单一、连贯的系统。原创 2024-11-24 06:00:00 · 924 阅读 · 0 评论 -
太疯狂了,Mistral AI开源最大的VLLM多模态大模型——Pixtral-Large-Instruct-2411
Mistral-Large-Instruct-2411 是一种高级密集型大型语言模型 (LLM),具有 123B 参数,设计用于语言理解和生成的各个方面。它是 Mistral-Large-Instruct-2407 的扩展,在长上下文、函数调用和系统提示处理方面提供了更好的功能。Mistral-Large-Instruct-2411 的突出特点之一是它的多语言支持,可支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。原创 2024-11-19 12:05:22 · 1112 阅读 · 0 评论 -
LLM2CLIP:通过大型语言模型扩展 CLIP 的能力边界
微软的 LLM2CLIP 利用大型语言模型(LLM)来增强多模态模型 CLIP(对比语言图像预训练)的功能。LLM2CLIP 解决了现有 CLIP 模型的局限性,例如上下文窗口受限和文本理解能力较弱,它整合了 LLM 的强大功能,从而增强了对更长、更密集和更复杂字幕的理解能力。这种整合可以提供更丰富的文本上下文,改进文本与图像的对齐,并提供开放世界的知识,从而提高多模态特征对齐和训练效率。原创 2024-11-17 10:58:40 · 1889 阅读 · 0 评论