构建具有双向翻译功能的多模态手语虚拟形象
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, GenASL, Sign Language Avatars, Multimodal Ai Models, Bidirectional Translation Capabilities, Generative Ai Applications, Accessibility For Deaf]
导读
了解多模态大型语言模型(LLMs)和3D姿态估计算法如何生成逼真的人类美国手语(ASL)虚拟形象,这些形象能够传达手语的情感和表情,提高准确性并创造更真实的交流体验。本节介绍双向翻译功能,使用户能够无缝地将ASL视频翻译成口语和书面英语,以及将口语和书面英语翻译成ASL视频。这些功能为开发者创造了新的可能性,使他们能够开发出适合多元化受众的包容性应用。深入探索包容性交流的未来,见证生成式人工智能的强大力量。
演讲精华
以下是小编为您整理的本次演讲的精华。
演讲者首先强调了主要通过手语交流的个人所面临的挑战,强调他们在嘈杂的环境中,如咖啡馆,由于搅拌机和谈话的背景噪音,他们经常感到沮丧。他们发现自己不得不提高嗓门、重复自己的话,并努力让他们的要求被理解。同样,在虚拟会议中,不稳定的互联网连接可能导致视频冻结,从而无法感知有效沟通和富有成效的讨论所需的关键面部表情、手势和唇语。
演讲者介绍了GenASL,这是一款由生成式人工智能驱动的应用程序,可为依赖视觉交流的个人提供支持。去年,他们展示了初步实现,重点是将英语音频翻译成美国手语(ASL)化身视频,呈现2D棍状化身。今年,他们增强了生成类似人类的化身的功能,并添加了反向方向,允许用户输入ASL视频并生成相应的英语音频。
手语视频生成过程包括四个步骤。首先,使用Amazon Transcribe将英语音频转换为文本。其次,使用Anthropic的Claude 3.5 Sonnet V2模型将英语文本翻译成ASL语汇。第三,使用Stable Diffusion模型进行图像生成,将ASL语汇转换为原始ASL化身视频。最后,应用SmoothNet机器学习模型,创建最终平滑的ASL化身视频,具有连贯的帧与帧之间的过渡。
对于视频推导(反向过程),有两个步骤。首先,使用Meta的经过微调的LLaMA 3.2 ViT Instruct 11B模型(一个具有110亿参数的模型)处理输入的ASL视频,利用多模态模型提供的视频理解能力进行生成英语文本。其次,使用Amazon Polly将英语文本转换为相应的英语音频。
演讲者提供了示例来说明这些过程。对于手语视频生成,上传的音频文件被转换为英语文本、ASL语汇、原始视频和最终平滑视频,化身在其中签署了“你好,你好吗?