自Holo1模型发布以来,我们的研发团队始终致力于突破计算机交互(Computer Use)智能体的基础能力瓶颈。今日,我们正式宣布开源Holo1.5系列模型,提供3B、7B和全新72B三种参数规模,全面实现10%以上的准确率提升,刷新计算机交互定位模型的性能纪录。该系列模型不仅在用户界面(UI)理解与问答任务中表现卓越,更以完全开放权重的形式登陆HuggingFace平台,为全球开发者赋能下一代智能交互应用开发。
【免费下载链接】Holo1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B
什么是UI元素定位技术?
计算机交互智能体通过模拟人类操作方式与软件系统进行原生交互——它们需要像人类一样"看见"屏幕内容,并执行点击、输入等精准操作。UI元素定位(又称视觉 grounding)作为核心技术,要求模型在给定任务指令(如"打开Spotify应用")时,能从屏幕截图中计算出精确操作坐标。这种空间定位能力直接决定了智能体在数字环境中的导航精度,是构建可靠计算机交互系统的技术基石。
跨平台定位性能的全面突破
Holo1.5在主流定位基准测试中实现了性能飞跃。我们构建了覆盖Web端、移动端及桌面系统(包括macOS、Ubuntu和Windows)的全场景测试矩阵,结果显示Holo1.5不仅超越Qwen-2.5 VL等开源模型,更显著优于Sonnet 4等闭源通用模型,甚至在UI-TARS 1.5、UI-Venus等专项优化系统中也占据优势地位。特别值得关注的是,在ScreenSpot-Pro基准测试中,Holo1.5展现出处理专业级高分辨率界面的强大能力,该基准包含Photoshop、AutoCAD和VSCode等复杂软件场景,与真实工作环境高度吻合。
如上图所示,Holo1.5模型在3B至72B参数区间均处于帕累托最优前沿,实现了性能与效率的完美平衡。这一技术突破充分验证了我们在多模态融合架构上的创新成果,为开发者提供了从边缘设备到云端部署的全谱系解决方案。
界面理解与视觉问答能力的双重进化
除精准定位外,计算机交互智能体还需具备深度理解屏幕内容的认知能力。UI视觉问答(VQA)任务通过自然语言提问(如"当前激活的是哪个标签页?"或"用户是否已登录?")来评估模型的界面理解水平。这种上下文感知能力使智能体能够追踪操作状态、验证执行结果,并解决实际任务中的歧义问题。
Holo1.5在UI VQA基准测试中表现出显著优势:不仅全面超越原始Qwen基础模型,更在开源与闭源模型的横向对比中稳居前列。这些结果证实Holo1.5已实现从"定位坐标"到"理解意图"的能力跃升,为构建通用型计算机交互智能体奠定了认知基础。
构建跨平台通用计算机交互智能体
我们的技术愿景是打造兼具成本效益与可靠性的计算机交互智能体。Holo1.5的发布标志着这一征程的重要里程碑,将加速行业对智能交互技术的信任与采用。值得关注的是,在未来几周内,我们将基于Holo模型推出系列工具与智能体应用,涵盖办公自动化、软件开发辅助、创意设计支持等多个领域。
作为诞生于巴黎、服务全球的人工智能企业,Holo系列模型的每一次迭代都致力于推动人机交互的范式革新。Holo1.5不仅是技术参数的提升,更是人工智能理解数字世界方式的革命性进步。我们坚信开放协作是技术创新的重要推动力,期待与全球开发者共同探索计算机交互智能体的无限可能。
随着Holo1.5模型的开源发布,人工智能与软件系统的交互方式正迎来历史性转折点。从简单的指令执行到复杂的任务规划,从单一应用操作到跨平台工作流协同,Holo1.5正在重新定义智能体与数字世界对话的技术标准。我们邀请开发者立即访问HuggingFace获取模型权重,或通过官网预约技术演示,共同开启智能交互的新纪元。
【免费下载链接】Holo1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



