助力视障人士:交互式语音机器人的创新解决方案
1. 前沿技术探索
在当今科技发展的浪潮中,为了提高相关技术的准确性,研究者进行了诸多尝试,其中卷积神经网络(CNN)和人工智能机制的应用备受关注。CNN 作为一种具有一个或多个卷积层的神经网络,主要用于图像处理、分类、分割以及其他自相关数据的处理。它就像是一个智能的“侦探”,能够对物体进行全面调查,为解决传统难题提供通用方法,同时检测实体并执行后续程序,让整个系统更加高效。
此外,研究者还通过深度学习和机器学习程序,对不同的初始原型进行了研究,这些原型涵盖了外观和货币识别等方面,使得识别过程更加快速和灵活。在面部特征提取方面,通过提取仅依赖于面部区域相对运动的特征,实现了鲁棒性的变化。不过,如果在录制的视频中某些面部部分不可见,姿势特征可能无法实现有效的变化。
2. 面临的问题与提出的解决方案
对于视障人士来说,社交是一件具有挑战性的事情。为了帮助他们更好地融入社会,提出了一种智能语音代理系统。该系统可以根据数据库,为视障人士提供周围人的信息。对于视障人士已经认识的人,P - lens 会说出其姓名;对于陌生人,系统会通过人脸识别提供位置信息并发出警报。
这个系统还提供了一种交互式的查询方式,能够提供有关周围人的详细信息,如年龄、性别、情绪和服装颜色等。在人脸识别方面,主要有两个任务:面部识别和姓名匹配。然而,在疫情期间,人们都佩戴口罩,这给人脸识别带来了很大的挑战。为了解决这个问题,提出了一种新的特征提取方法,结合了局部二值特征、梯度直方图特征和几何特征,即使在佩戴口罩的情况下,也能准确识别人员。
超级会员免费看
订阅专栏 解锁全文
1721

被折叠的 条评论
为什么被折叠?



