智谱GLM-PC开放体验:全球首个公众可用电脑智能体实现"左右脑"协同
【免费下载链接】cogagent-9b-20241220 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/cogagent-9b-20241220
1月23日,人工智能企业智谱正式向公众开放其自主操作电脑的多模态智能体GLM-PC的体验服务。作为基于智谱自研多模态大模型CogAgent开发的创新产品,GLM-PC成为全球首个面向普通用户、支持"即开即用"的电脑智能体,具备类人化的计算机"观察"与"操作"能力,可协助用户高效完成各类电脑操作任务。本次版本升级重点推出"深度思考"模式,并强化了逻辑推理与代码生成专项功能,通过创新的"左右脑"协同架构,实现了逻辑推理与感知认知的深度融合。
GLM-PC创新性地借鉴人类大脑半球分工理论,构建了"双脑协同"处理机制。其中"左脑"系统专注于代码生成与逻辑执行,具备任务规划、循环执行以及动态反思、纠错与优化的长思考能力;"右脑"系统则专攻图像与图形用户界面(GUI)认知,擅长深度感知与交互体验优化,支持GUI图像理解、用户行为模式识别及图像语义解析等核心功能。这种"双脑"协作机制使GLM-PC不仅能够高效处理复杂逻辑任务,还能在开放性问题解决中展现出更强的环境适应力、创新思维和任务泛化能力。通过动态优化算法与情境感知技术的结合,该智能体在循环任务处理、多步骤推理执行以及长链条任务管理等场景中表现尤为突出,为用户探索更高效的工作流解决方案提供有力支持。
如上图所示,该二维码提供了CogAgent-9B-20241220模型的快速访问入口。这一资源获取方式充分体现了智谱在推动AI技术开源开放方面的努力,为开发者和研究人员提供了便捷获取前沿模型资源的渠道。
目前,新版GLM-PC已正式在智谱官方网站上线,提供下载体验服务,并新增对Windows操作系统的全面支持,进一步降低了普通用户的使用门槛。在推动技术创新的同时,智谱积极践行开源理念,已于2024年12月公开了全面升级的CogAgent-9B-20241220预训练模型,为全球GUI智能体研究社区提供重要技术支撑。该模型相关研究成果已发表于计算机视觉顶会CVPR 2024,并获评Highlight论文,技术报告与模型权重均已通过官方渠道开放获取。
GLM-PC的开放标志着通用人工智能向实际办公场景落地迈出关键一步。通过模拟人类认知与操作习惯的交互方式,该智能体有望大幅降低数字工具使用门槛,重塑人机协作模式。随着多模态交互技术的持续进化,未来电脑智能体可能在复杂任务自动化、个性化工作流定制等领域展现更大潜力,推动数字生产力工具向更智能、更人性化的方向发展。对于开发者社区而言,CogAgent-9B-20241220模型的开源将加速GUI智能体技术的研究迭代,促进相关应用场景的创新探索。
【免费下载链接】cogagent-9b-20241220 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/cogagent-9b-20241220
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



