几个跟数字人项目相关的开源大模型

最新推荐文章于 2025-10-09 15:23:08 发布

原创

最新推荐文章于 2025-10-09 15:23:08 发布 · 3.2k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #音视频 #开源

本文介绍了多个基于AI的创新项目，如语音聊天应用AI-voice-chat，能与chatGPT语音交互；DiffusionAvatars用于3D头像动画制作；以及PoseGPT利用大模型理解3D人体姿势。同时提到从静态图像到动态视频的转换工具和3D模型生成技术的最新进展。

目前很多大模型如雨后春笋般涌现出来，都有点心慌了。冷静下来还是需要一个个去识别哪些对自己有用。

AI Voice Chat

https://github.com/WeberJulian/AI-voice-chat

它是一个简化版的react app，可以用自己的语音跟chatGPT 语音聊天。

它使用Whisper Large v3来转录，使用openchat 3.5 AWQ作为语言助手，XTTS v2用来文本转语音。

它的优势是语言对语音的几乎无延迟特性。运行在RTX 3090 GPU上。

Diffusion Avatars

https://tobias-kirschstein.github.io/diffusion-avatars/（代码还在开发中）

它用来合成一个高保真的3D头像，提供对姿势和表情的控制。

将表情传输到3D头像动画

通过 NPHM 制作头像动画

通过底层 NPHM 进行控制。我们通过在几个目标表达式之间进行插值来获得表达式代码 z exp 。使用光栅化和我们基于扩散的神经渲染器，表达代码被转换为具有视点控制的现实化身。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。