两个开源AI项目又火了!

图片


给大家介绍两个最近开源的AI项目:Cradle和LivePortrait。

Cradle:迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架。

LivePortrait:可控人像视频生成AI框架,能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

图片

Cradle

近日,昆仑万维与北京智源人工智能研究院、新加坡南洋理工大学以及北京大学等知名学术机构合作,共同推出了一个名为Cradle的创新AI框架。

该框架的独特之处在于,它允许AI以一种新颖的方式与游戏和软件进行交互,无需事先的训练过程,直接使用键盘和鼠标操作,类似于人类用户,而且在不依赖于特定应用程序接口(API)的情况下,与广泛的开源和闭源应用程序进行有效沟通。

图片

Cradle的框架实现大致分为以下几个步骤:

  • 信息收集:Cradle从视频片段中提取所有有用的视觉和文本信息(包括布局、图像、动画和UI元素等),以便理解当前情况并进行进一步推理。同时,通过OCR技术提取图像中的文本信息,包括内容(标题和段落)、导航标签(菜单和链接)、通知和指示等。

  • 技能和动作生成:Cradle利用LMM生成代码函数作为语义级别的技能,这些技能封装了较低级别的键盘和鼠标控制,将LMM生成的语义动作与操作系统级别的可执行动作连接起来。类似于人类在游戏中的逐步提高,这些技能可以根据游戏教程、指南、游戏手册和设置获得,也可以是自我成长。这些技能也可以预定义或组合以解决更复杂的任务。

  • 动作执行:在Cradle生成动作并决定在环境中执行后,将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令,以与环境进行交互。

图片

目前Cradle已经可以在应用和游戏领域取得非常优秀的表现。包括能够操作日常软件,如Chrome、Outlook和飞书等;以及跟随游戏《荒野大镖客2》、《都市:天际线》等剧情游玩。

这一框架标志着AI领域的一项重要进展,尽管尚处于早期发展阶段,但它已经展示了AI与人类交互方式的潜在转变。从提升游戏体验到优化办公效率,Cradle为AI的实用性和普及性开辟了新的道路。

项目地址:https://github.com/baai-agents/cradle

图片

LivePortrait

近日,快手和复旦大学、中科大共同研发的LivePortrait开源了。

这同样是一款图生视频的大模型,只需提供一张正脸照、一段视频,照片上的人物就会栩栩如生的模仿视频中的表情了。

图片

LivePortrait可以用指定驱动视频对指定人脸进行驱动,从而实现多人合照驱动。

甚至在动物数据集上微调后,对动物肖像也可进行精准驱动,让小动物们模仿人的表情!

图片

项目的部署非常简单:

  • 首先克隆仓库,使用conda创建虚拟环境,安装所需的依赖项和FFmpeg。

  • 然后下载模型的权重文件,放到相应的目录,通过脚本运行即可。

项目地址:https://github.com/KwaiVGI/LivePortrait

在线体验:https://huggingface.co/spaces/KwaiVGI/LivePortrait

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

英智未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值