作者:吴淑明 达摩院机器智能技术团队
当前手语内容覆盖有限,听障人士难以从影音内容中获取更多的信息,在交流场景下也面临着沟通障碍。如何才能提升听障人士在社会生活日常沟通中的效率?本文将为大家分享虚拟数字人「手语翻译官」的技术实现。
一、背景
1.1 用户规模
世界银行的数据显示,全球大约有11亿残障人士,全球听障人士约有7000万+,中国残疾人总残疾人人数为8500万人左右,听障人士约2780万,占全国残疾人口的约30%,每年新增20万;浙江有90万。全国范围内手语老师数量不足, 专业的手语老师就更是少之又少。
1.2 聋人生活中的困境
-
与健听人的简单交流,即便使用文字也不能顺畅交流,再加上部分年长受教育程度低的人群,文字交流也困难。
-
由于听障人群的受教育程度以及独特表达和理解方式,导致他们的文字表述和语法结构与健听人完全不同,即便通过文字也无法便捷无障碍的与健听人沟通。听障人群与健听人之间的沟通障碍,严重影响了听障人群的生活质量。听障人群与健听人的沟通需求主要集中在几下情况:
较复杂的交流,就医、纠纷、水电煤银网办事等具有一定专业性、复杂性的交流场景,需要有一个专业的手语翻译人员协助, 否则就是下面这句话:
晚上熬夜半夜早晨,他老换找位置舒服他妈妈多次断睡性帮他盖好被子别着凉,他有时翻中了我体位置得痛,看我醒酒冲来抱舒服能秒入睡了,哼!等中午他父母要补睡......
听人完全看不懂,这是在说什么?
深度交流:听障人士需要与听人进行深度的交流,通常是有一定专业性、复杂性的交流场景,如就医、水电煤银网办事等;
信息获取难度大:听障人士需要从听人世界的影音内容中获取更多的信息,而当前手语内容覆盖有限。
二、产品设计
2.1 产品调研
2.1.1 调研用户画像
听障人士:
1)听力受损程度在中重度及以上,在参与社会生活方面存在中度障碍,借助我们提供的产品,能有效提升其社会生活日常沟通效率;
2)会相对标准的手语,其通过手语所表达出的信息,在听障人群中,能被大多数听障人士看懂并理解;
3)至少具备普通智能手机使用能力。
听人:
1)与听障人士密切生活的非听障人群,与听障人士有较大的日常交流沟通诉求;
2)公共服务机构(政府、银行、医院、快递、商场等)的工作人员在日常工作中,可能会遇到要为听障人群提供服务的场景。
2.1.2 痛点场景
简单交流:听障人士需要与听人进行简短的交流,对话轮次通常不超过10轮即可完成,内容为日常生活所需的交流场景,如日常购物、出行、问询、工作交办;
深度交流:听障人士需要与听人进行深度的交流,通常是有一定专业性、复杂性的交流场景,如就医、水电煤银网办事等;
信息获取:听障人士需要从听人世界的影音内容中获取更多的信息,而当前手语内容覆盖有限;
参加会议:听障人士需要从有声会议中获取会议信息,当前主要通过讯飞的语音识别技术转成文字;

本文介绍了为提升听障人士沟通效率,通过虚拟数字人实现手语翻译的技术方案,包括产品设计、双向手语翻译的难点、技术落地和数据生产过程。手语识别和合成是关键技术,利用云原生技术和3D渲染解决实时交互问题,而数据生产中的手语数据标注和众包是重要环节。
最低0.47元/天 解锁文章
1144

被折叠的 条评论
为什么被折叠?



