自己动手搭建“接入 AI Agent 的数字人”

原创

已于 2024-09-06 10:01:12 修改 · 1w 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #开源软件 #虚拟现实 #ai-native

于 2024-09-05 12:14:26 首次发布

前言

本文的实战案例来自于开源项目：https://github.com/wan-h/awesome-digital-human-live2d。该项目可以运用Dify编排框架和Live2D驱动模型搭建智能数字人，实现智能对话并动态交互，大家可以自行部署尝试，项目效果如下。

开源！数字人：awesome-digital-human-live2d

一、数字人简介

数字人，是指运用数字技术创造出来的人，虽然在现阶段不能做到像科幻作品中的人型机器人一样具备高度智能，但它已经在生活的各类场景中触手可及，而且随着AI技术的发展正在爆发

目前业界还没有一个关于数字人的准确定义，但一般可以根据技术栈的不同分为两类，一类是由真人驱动的数字人，另一类是由算法驱动的数字人。

1.1 真人驱动的数字人

这类数字人重在通过动捕设备或视觉算法还原真人动作表情，主要应用于影视行业以及现下很火热的直播带货，其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关，不过随着视觉算法的不断进步，现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息，从而做到不错的效果。

1.2 算法驱动的数字人

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：

其中三个核心算法分别是：

ASR (Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。
AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调 Agent 的概念是为了让数字人拥有记忆模块等更加真实。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。