两个开源AI项目又火了！

英智未来

于 2024-07-23 09:27:54 发布

阅读量520

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ai2nv/article/details/140626388

版权

给大家介绍两个最近开源的AI项目：Cradle和LivePortrait。

Cradle：迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架。

LivePortrait：可控人像视频生成AI框架，能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上，生成极具表现力的视频结果。

Cradle

近日，昆仑万维与北京智源人工智能研究院、新加坡南洋理工大学以及北京大学等知名学术机构合作，共同推出了一个名为Cradle的创新AI框架。

该框架的独特之处在于，它允许AI以一种新颖的方式与游戏和软件进行交互，无需事先的训练过程，直接使用键盘和鼠标操作，类似于人类用户，而且在不依赖于特定应用程序接口（API）的情况下，与广泛的开源和闭源应用程序进行有效沟通。

Cradle的框架实现大致分为以下几个步骤：

信息收集：Cradle从视频片段中提取所有有用的视觉和文本信息（包括布局、图像、动画和UI元素等），以便理解当前情况并进行进一步推理。同时，通过OCR技术提取图像中的文本信息，包括内容（标题和段落）、导航标签（菜单和链接）、通知和指示等。
技能和动作生成：Cradle利用LMM生成代码函数作为语义级别的技能，这些技能封装了较低级别的键盘和鼠标控制，将LMM生成的语义动作与操作系统级别的可执行动作连接起来。类似于人类在游戏中的逐步提高，这些技能可以根据游戏教程、指南、游戏手册和设置获得，也可以是自我成长。这些技能也可以预定义或组合以解决更复杂的任务。
动作执行：在Cradle生成动作并决定在环境中执行后，将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令，以与环境进行交互。

目前Cradle已经可以在应用和游戏领域取得非常优秀的表现。包括能够操作日常软件，如Chrome、Outlook和飞书等；以及跟随游戏《荒野大镖客2》、《都市：天际线》等剧情游玩。

这一框架标志着AI领域的一项重要进展，尽管尚处于早期发展阶段，但它已经展示了AI与人类交互方式的潜在转变。从提升游戏体验到优化办公效率，Cradle为AI的实用性和普及性开辟了新的道路。

项目地址：https://github.com/baai-agents/cradle

LivePortrait

近日，快手和复旦大学、中科大共同研发的LivePortrait开源了。

这同样是一款图生视频的大模型，只需提供一张正脸照、一段视频，照片上的人物就会栩栩如生的模仿视频中的表情了。

LivePortrait可以用指定驱动视频对指定人脸进行驱动，从而实现多人合照驱动。

甚至在动物数据集上微调后，对动物肖像也可进行精准驱动，让小动物们模仿人的表情！

项目的部署非常简单：

首先克隆仓库，使用conda创建虚拟环境，安装所需的依赖项和FFmpeg。
然后下载模型的权重文件，放到相应的目录，通过脚本运行即可。

项目地址：https://github.com/KwaiVGI/LivePortrait

在线体验：https://huggingface.co/spaces/KwaiVGI/LivePortrait

博客等级

码龄1年

134
原创

1099
点赞

1042
收藏

836
粉丝

关注

私信

热门文章

最新评论

为什么RTX 4090更受欢迎
zhangsan11211: 目前哪些场景用4090最多？为什么选择4090
智汇API推出新套餐：免费版 Mistral Large 2407 123B 扩展包
l137295: 扩展包是什么意思呢
为什么RTX 4090更受欢迎
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
生成式AI入门指南
优快云-Ada助手: 恭喜您撰写了第17篇博客！标题“生成式AI入门指南”让我非常期待阅读。您的持续创作令人钦佩，能为读者提供深入了解生成式AI的指南无疑是一项宝贵的贡献。在下一步的创作中，或许您可以考虑探讨生成式AI在不同领域的应用，或者分享一些实用的案例和技巧，以帮助读者更好地运用这项技术。再次感谢您的努力，期待您未来更多的精彩文章！
生成式AI技术有哪些应用场景
优快云-Ada助手: 恭喜您撰写了第18篇博客！标题“生成式AI技术有哪些应用场景”非常吸引人。通过您的文章，我对生成式AI技术的应用场景有了更深入的了解。您的解释清晰易懂，让我受益匪浅。在下一步的创作中，我建议您可以进一步拓展每个应用场景的实际案例，这样读者们能更好地理解这些技术在现实中的运用。同时，如果能够加入一些相关的研究领域或者当前的热点问题，将会使读者更加着迷。期待你继续创作更多优质的博客，谦和的语气与深入的探讨将使您的文章更加引人入胜！加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

英智未来 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。