构建具有双向翻译功能的多模态手语虚拟形象

构建具有双向翻译功能的多模态手语虚拟形象

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, GenASL, Sign Language Avatars, Multimodal Ai Models, Bidirectional Translation Capabilities, Generative Ai Applications, Accessibility For Deaf]

导读

了解多模态大型语言模型(LLMs)和3D姿态估计算法如何生成逼真的人类美国手语(ASL)虚拟形象,这些形象能够传达手语的情感和表情,提高准确性并创造更真实的交流体验。本节介绍双向翻译功能,使用户能够无缝地将ASL视频翻译成口语和书面英语,以及将口语和书面英语翻译成ASL视频。这些功能为开发者创造了新的可能性,使他们能够开发出适合多元化受众的包容性应用。深入探索包容性交流的未来,见证生成式人工智能的强大力量。

演讲精华

以下是小编为您整理的本次演讲的精华。

演讲者首先强调了主要通过手语交流的个人所面临的挑战,强调他们在嘈杂的环境中,如咖啡馆,由于搅拌机和谈话的背景噪音,他们经常感到沮丧。他们发现自己不得不提高嗓门、重复自己的话,并努力让他们的要求被理解。同样,在虚拟会议中,不稳定的互联网连接可能导致视频冻结,从而无法感知有效沟通和富有成效的讨论所需的关键面部表情、手势和唇语。

演讲者介绍了GenASL,这是一款由生成式人工智能驱动的应用程序,可为依赖视觉交流的个人提供支持。去年,他们展示了初步实现,重点是将英语音频翻译成美国手语(ASL)化身视频,呈现2D棍状化身。今年,他们增强了生成类似人类的化身的功能,并添加了反向方向,允许用户输入ASL视频并生成相应的英语音频。

手语视频生成过程包括四个步骤。首先,使用Amazon Transcribe将英语音频转换为文本。其次,使用Anthropic的Claude 3.5 Sonnet V2模型将英语文本翻译成ASL语汇。第三,使用Stable Diffusion模型进行图像生成,将ASL语汇转换为原始ASL化身视频。最后,应用SmoothNet机器学习模型,创建最终平滑的ASL化身视频,具有连贯的帧与帧之间的过渡。

对于视频推导(反向过程),有两个步骤。首先,使用Meta的经过微调的LLaMA 3.2 ViT Instruct 11B模型(一个具有110亿参数的模型)处理输入的ASL视频,利用多模态模型提供的视频理解能力进行生成英语文本。其次,使用Amazon Polly将英语文本转换为相应的英语音频。

演讲者提供了示例来说明这些过程。对于手语视频生成,上传的音频文件被转换为英语文本、ASL语汇、原始视频和最终平滑视频,化身在其中签署了“你好,你好吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值