目前很多大模型如雨后春笋般涌现出来,都有点心慌了。冷静下来还是需要一个个去识别哪些对自己有用。
AI Voice Chat
https://github.com/WeberJulian/AI-voice-chat
它是一个简化版的react app,可以用自己的语音跟chatGPT 语音聊天。
它使用Whisper Large v3来转录,使用openchat 3.5 AWQ作为语言助手,XTTS v2用来文本转语音。
它的优势是语言对语音的几乎无延迟特性。运行在RTX 3090 GPU上。
Diffusion Avatars
https://tobias-kirschstein.github.io/diffusion-avatars/(代码还在开发中)
它用来合成一个高保真的3D头像,提供对姿势和表情的控制。
-
将表情传输到3D头像动画

-
通过 NPHM 制作头像动画
通过底层 NPHM 进行控制。我们通过在几个目标表达式之间进行插值来获得表达式代码 z exp 。使用光栅化和我们基于扩散的神经渲染器,表达代码被转换为具有视点控制的现实化身。

本文介绍了多个基于AI的创新项目,如语音聊天应用AI-voice-chat,能与chatGPT语音交互;DiffusionAvatars用于3D头像动画制作;以及PoseGPT利用大模型理解3D人体姿势。同时提到从静态图像到动态视频的转换工具和3D模型生成技术的最新进展。
最低0.47元/天 解锁文章

1万+

被折叠的 条评论
为什么被折叠?



