你是不是也看到过那种视频:一个人打开手机,让ChatGPT通过摄像头识别当前拍摄的物体,让它来高速你这个东西是什么,以及具体用法;甚至是给ChatGPT拍摄一道习题,让它来给你具体的解题思路。我们今天也来做一个类似的可视频识别物体与你进行语音对话的聊天机器人。
具体来讲,在本教程中,你将了解如何使用 OpenAI、LiveKit 和 Deepgram 部署在 DigitalOcean GPU Droplets服务器上,构建一个具有计算机视觉和语音对话功能的实时AI聊天机器人。这个聊天机器人能够与用户进行实时对话,分析从你的摄像头捕捉到的图像,并提供准确及时的响应。
构建实时AI聊天机器人的4项技术
在本教程中,你将利用三项强大的技术来构建你的实时AI聊天机器人,每项技术都服务于特定目的,以增强聊天机器人的能力,同时利用DigitalOcean的GPU Droplets作为低成本高性能的基础设施:
- OpenAI API:如果你关注AI行业,这个你应该不陌生。OpenAI API将根据用户输入生成类似人类的文本响应。通过使用如GPT-4o这样的高级模型,我们的聊天机器人将能够理解上下文,进行流畅的对话,并对用户的提问提供准确的答案。
- LiveKit:LiveKit将促进用户与聊天机器人之间的实时音频和视频通信。它允许我们创建无缝的交互体验,使用户能够与聊天机器人对话并接收语音回应。这对于构建能够自然地吸引用户的语音启用聊天机器人至关重要,使得交互感觉更加个性化和直观。(当然,如果你熟悉其他的音视频API也可以使用,比如声网、WebRTC、腾讯等)
- Deepgram:Deepgram将用于语音识别,将口语转换为文本。这使聊天机器人能够有效地处理用户的语音输入。通过整合Deepgram的功能,你可以确保聊天机器人准确理解用户的命令和查询,从而提高整体交互质量。在需要快速准确响应以维持用户参与度的实时环境中,这一点尤为重要。
- DigitalOcean GPU Droplet服务器:利用DigitalOcean的GPU Droplets对于此类项目特别有利,因为它们提供了必要的计算和GPU基础设施,以支持这些AI模型和实时通信所需的密集处理。首先它的H100 GPU针对运行AI/ML工作负载进行了优化,显著加快了模型推理和视频处理任务的速度。这确保了即使在高负载下,聊天机器人也能快速高效地提供响应,改善用户体验和参与度。同时,它的套餐内还提供大量的出站流量,以及2Gbps- 10Gbps的峰值带宽,可以稳定地支撑实时音视频交互所需的带宽与流量,而且就算流量超出也仅需0.01美元/GB,相对于大多数云平台都要便宜。更重要的是,DigitalOcean的H100 GPU Droplet仍然处于优惠中,相比其他平台都要实惠。
准备工作
开始之前,请确保你已具备以下条件:
- DigitalOcean云平台账号,可在Digitalocean.com进行注册,该平台支持绑定支付宝或信用卡,新注册用户会有200美元免费使用额度。
- 已部署并运行的GPU Droplet,具体方法非常简单,只需要点选即可,后面我们会简要介绍,详细步骤可参考我们往期的教程。
- 基础的Python编程知识。
- 设置好用于GPT-4o模型的OpenAI API密钥。
- 在你的GPU Droplet上运行的LiveKit服务器,这一点我们在后面会讲。
- Deepgram API密钥。
步骤1 - 设置GPU Droplet
1、创建新项目:你需要从云后台创建一个新项目(project),并将其绑定到一个GPU Droplet。
2、创建GPU Droplet:登录你的DigitalOcean账户,创建一个新的GPU Droplet,并选择AI/ML Ready作为操作系统。该OS镜像安装了所有必需的NVIDIA GPU驱动程序。
3、添加SSH密钥进行身份验证:需要SSH密钥来认证GPU Droplet,通过添加SSH密钥,你可以从终端登录到GPU Droplet。
4、最终确定并创建GPU Droplet:完成上述所有步骤后,最终确定并创建新的GPU Droplet。
步骤2 - 设置LiveKit账户并在GPU Droplet上安装CLI
首先,你需要创建一个账户或登录到你的LiveKit Cloud账户,并创建一个LiveKit项目。请记下项目设置页面上的LIVEKIT_URL、LIVEKIT_API_KEY和LIVEKIT_API_SECRET环境变量,因为在本教程后面部分会用到它们。
安装LiveKit CLI
以下命令将在你的GPU Droplet上安装LiveKit CLI。
curl -sSL https://get.livekit.io/cli | bash
对于LiveKit Cloud用户,你可以通过CLI对你的Cloud项目进行身份验证以创建API密钥和秘密。这让你可以不用每次都手动提供凭据的情况下使用CLI。
lk cloud auth
然后,按照指示并通过浏览器登录。
你将被要求添加设备并授权访问你在此步骤中创建的LiveKit项目。
<