大家好,今日分享以下是的 "GitHub开源数字人项目",涵盖图像生成、语音驱动、直播带货及实时对话等核心功能,按技术方向分类整理的关键信息:
一、图像与动态生成类
-
OneShotOneTalk
-
功能:单张图像生成全身动态数字人,支持3D高斯点云与SMPL-X模型结合,实现高精度表情与姿势动画。
-
适用场景:虚拟主持、AI客服。
-
GitHub地址:https://xiangjun-xj.github.io/OneShotOneTalk/
-
-
MimicTalk
-
技术:基于NeRF技术,15分钟训练个性化3D说话人脸模型,逼真度行业领先。
-
特点:支持音频驱动,生成视频与真人高度相似。
-
GitHub地址:https://github.com/yerfor/MimicTalk
-
二、语音驱动与交互类
-
EchoMimicV2(支付宝开源)
-
功能:音频驱动半身动画生成,支持头部、手势和上半身动作同步,适用于虚拟主播与视频制作。
-
技术亮点:结合扩散模型与动作序列生成。
-
GitHub地址:https://github.com/antgroup/echomimic_v2
-
-
Fay
-
功能:实时对话数字人系统,整合ASR(语音识别)、TTS(语音合成)及LLM(大语言模型),支持虚拟主播、语音助理等场景。
-
部署要求:需配置CUDA 11.7与6G显存GPU。
-
GitHub地址:https://github.com/TheRamU/Fay
-
三、直播与商业化应用类
-
AnchorCrafter
-
功能:基于扩散模型生成带货风格视频,精准捕捉商品细节并控制人-物互动。
-
应用场景:电商平台(如抖音、淘宝)商品推广。
-
GitHub地址:https://github.com/cangcz/AnchorCrafter
-
-
Streamer-Sales
-
功能:直播卖货大模型,集成文案生成、情感语音合成及数字人视频生成,支持RAG增强内容。
-
特点:结合LMDeploy加速推理,提升效率。
-
GitHub地址:https://github.com/PeterH0323/Streamer-Sales
-
四、多模态与轻量化工具
-
xuniren
-
功能:2D实时对话数字人,支持语音驱动与LLM整合(如ChatGLM-6B),适合轻量级部署。
-
GitHub地址:https://github.com/waityousea/xuniren
-
-
JoyHallo(京东开源)
-
技术:集成wav2vec2优化面部动画,支持中英文视频生成,突破普通话数据集限制。
-
适用领域:数字媒体、在线教育。
-
GitHub地址:https://github.com/jdh-algo/JoyHallo
-
五、企业级解决方案
-
duix.ai(硅基智能开源)
-
特点:全球首个2D真人级实时渲染数字人模型,开放底层引擎与商业化逻辑源码。
-
适用场景:抖音、视频号营销推广。
-
GitHub地址:https://github.com/GuijiAI/duix.ai
-
六、总结与选择建议
-
开发门槛低:优先选择Fay或xuniren,整合成熟技术栈。
-
商业化需求:AnchorCrafter与Streamer-Sales适合电商场景。
-
高拟真度:MimicTalk与EchoMimicV2在3D生成与动作同步上表现优异。
更多项目可通过GitHub搜索关键词“digital human”或访问上述链接获取完整信息。