Voiceitt将语音革命延伸至非标准语音人群
Alexa Fund投资的初创公司为有言语障碍的人群开启了语音计算的可能性。
美国国家耳聋与其他交流障碍研究所的数据显示,美国大约有750万人存在言语障碍。随着计算机技术从基于文本的界面转向基于语音的界面,非标准语音人群面临着被时代抛下的风险。
位于以色列拉马特甘的初创公司Voiceitt表示,致力于确保这种情况不会发生。通过Voiceitt,客户可以训练他们自己个性化的语音识别模型,这些模型根据他们的语音模式进行调整,使他们能够与语音控制设备或与他人进行交流。
上周,Voiceitt宣布其应用程序正式公开发布。
Alexa基金的早期投资与整合
Alexa基金是某中心的风险资本投资项目,是Voiceitt的早期投资者,与Alexa的集成已内置在Voiceitt应用程序中。
有Voiceitt用户表示:“现在我不用再叫我的爸爸妈妈、助手或护理员进来,告诉他们‘嘿,我需要这个;我需要那个’,我可以独立完成了。”“我一直在用它……我用它来做所有事情。”
另一位Voiceitt用户写道:“在经历了三年多的言语运动障碍,包括三年的言语功能障碍和两年无法说出可理解的话语之后,Voiceitt是我重获声音的关键部分。”
应用程序功能
Voiceitt的界面是一款iOS移动应用程序,具有两种模式:
- 对话模式:让客户使用合成语音和手机扬声器与他人交流。
- 智能家居模式:让客户与Alexa互动。
每种模式都有一套语音类别。对于对话模式,类别是交通、购物、医疗访问等场景;对于智能家居模式,则是灯光、音乐、电视控制等Alexa功能。
每个类别都包含一组常见的预定义短语。在智能家居模式下,这些短语是Alexa命令,例如“开灯”来打开灯。一个命令可以被配置为触发特定的操作。客户重复每个短语多次,以训练一个个人语音识别模型。
非标准语音建模
识别非标准语音在基本方式上与普通语音识别不同。
当训练数据稀疏时——就像Voiceitt的情况,因为客户是即时生成数据的——自动语音识别(ASR)的常见方法是流水线方法。在这种方法中,声学模型将声学数据转换为音素;一个“词典”提供音素的候选词级解释;语言模型则通过考虑每个词级解释的概率来裁决可能的解释。
但面对非标准语音,“我们需要看得比音素层面的特征更远。我们经常看到与规范发音的偏离。例如,如果一个单词以爆破音如‘b’或‘p’开头,说话者可能会一致地在它前面加上‘n’或‘m’音——‘mp’或‘mb’。”这可能会给从声音到音素、从音素到单词的常规映射带来问题。
因此,Voiceitt采用卷积神经网络来处理更大的语音信号片段。卷积神经网络最初设计用于寻找图像中特定像素模式,无论它们出现在哪里;类似地,它们可以寻找语音信号中任何位置的特征声学模式。
“只要客户的发音是一致的,这让我们有机会利用这种一致性,”语音识别团队负责人Filip Jurcicek说。“发音不必遵循标准词典。”
随着客户训练他们的定制模型,Voiceitt使用他们的录音语音进行训练和测试。一旦模型的输出置信度超过某个阈值,该短语就被“解锁”,客户可以开始使用它来控制语音助手或与他人交流。
但训练并不会就此停止。客户每次使用一个短语,都会为模型提供更多的训练数据,据称该模型会持续更新以提升性能。
未来发展道路
目前,Voiceitt有限的操作菜单意味着可以为每个客户学习和存储单独的模型。但Voiceitt计划显著扩展服务规模,因此研究人员正在研究更有效的模型训练和存储方法。
与此同时,Voiceitt已经在改变客户的生活。许多有言语障碍的人也存在肢体和手部活动的困难。对他们来说,Voiceitt不仅提供了与语音助手交互的能力;它还提供了对其环境施加有时是前所未有的控制的能力。在上面的视频中,客户首次使用Voiceitt时的反应证明了这种能力可以带来多么巨大的改变。
“看到这些真的很鼓舞人心,”产品副总裁Roy Weiss说。“我们都感到非常荣幸能够创造出一个真正在改变用户生活方面发挥作用的产品。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
863

被折叠的 条评论
为什么被折叠?



