39、人工智能算法在手部姿势分类中的实证评估

人工智能算法在手部姿势分类中的实证评估

1. 引言

近年来,信息和通信技术(ICT)的发展对教育、商业、政府和日常生活等诸多领域起到了催化作用。这也提升了人机交互(HCI)在安全、医疗、娱乐、教育等实际应用领域的范围。现代社会中HCI的新兴趋势促使研究人员设计出强大的数据集和分类模型,以控制和自动化实时应用。

手部手势在人机交互中扮演着重要角色,因为人类有时会依靠手部与环境进行交流和互动。基于手部手势的模型为交流和互动提供了一种简单自然的方式,因此比其他方法更为突出。已经有许多研究对基于手部手势的技术、限制以及如何提高其有效性进行了评估。

MoCap手部姿势数据集是最近用于手部姿势分类的数据集之一,但在文献中,关于该数据集的最佳分类算法的研究很少。因此,迫切需要进行全面的研究,以找出适合该数据集的最佳分类器。传统的二维人机交互方式(键盘和鼠标)无法处理最新虚拟环境(VE)应用的复杂性,这些应用需要利用不同的技术和模态,并将它们集成起来,以创造沉浸式的用户体验。然而,准确识别手部手势存在诸多困难和限制,因为人类手部结构复杂,形状多样。一旦定位到手部,手部手势识别(HGR)就会将预定的手势推断为独立的符号,这些符号大多是静态的,可以通过机器学习模式分类算法(如K近邻(KNN)、支持向量机、隐马尔可夫模型、主成分分析(PCA))进行分类。

2. 文献综述

手部手势识别主要有两种方式:基于手套的机电方法(本研究采用)和基于视觉的方法。动作捕捉(MoCap)通常指的是对人体在活动过程中的运动进行建模的技术和方法,通常涉及主体的面部、手部和其他身体部位的协同动作。

人类在早期发展阶段就会使用手势与周围环境进行交互,还会使用面部表情、身体动作、手指指向等手势。用于控制应用程序的手势模式应该易于执行和记忆。通过人类手势和人类手势识别机器已经实现了大量的创新。肢体语言是人类之间交流的重要方式,对于聋哑人来说尤为重要。仅在印度,就有约6300万人患有听力损失。

动作捕捉技术用于捕捉和分析人类表情,广泛应用于电影中图形人物的动画制作。然而,大多数动作捕捉相机系统昂贵、笨重、耗时且具有侵入性,这些缺点不仅使MoCap数据难以使用,还可能使其在其他应用中不切实际。人机界面(HCI)对娱乐行业也有帮助,个性化计算机图形模型的控制基于捕捉到的外观、形状和动作,使最终产品更具可信度。控制应用中,转换后的动作或姿势用于控制某些事物,游戏界面就是很好的例子。

静态手部姿势是指手部保持在某个特定位置,如握拳、握持等;而动态手势则涉及手部、手指和手臂的运动,如挥手、摇晃等。有三种非视觉的方法可用于监测手部的方向和位置,即惯性跟踪、磁性和声学方法。发射器设备会释放低频磁场,接收器(小型传感器设备)根据该磁场确定其相对于磁源的方向和位置。

近年来,人类与计算设备的交互变得越来越先进,已经成为生活中不可或缺的一部分。我们在日常生活中嵌入了各种技术,用于考勤、通信和娱乐等日常任务。分析手部手势主要有三种方法:基于视觉的方法、基于手套的方法和通过绘制手势进行分析的方法。基于手套的方法通过附着在手套上的光学或机械传感器工作,传感器将手指的弯曲转换为电信号,用于确定手部姿势。人类动作捕捉(MoCap)常用于肌肉骨骼生物力学和临床问题的研究,也为娱乐行业提供动画。虽然使用放置在皮肤上的标记是捕捉人类动作最流行的技术,但它也存在一些严重的缺点。

3. 分类器
  • 决策树(Decision Tree) :决策树是一种监督学习技术,它以图形方式表示各种决策及其可能的影响,包括偶然事件、效用和资源成本等。它是一种机器学习算法,作为决策支持工具,使用类似于树结构的图形或决策模型。决策树主要由内部节点、分支和叶节点三部分组成。该算法可用于分类和回归问题。本研究中使用的决策树变体包括精细树、中等树和粗糙树。
  • 判别分析(Discriminant Analysis) :这是一种机器学习算法,用于找到能够表征两个或多个事件类别的特征组合。所得组合可用作线性分类器,也可用于回归。本研究中使用的判别分析变体包括线性判别和二次判别。
  • 支持向量机(Support Vector Machine) :SVM是一种判别式分类器,通过超平面将两个线性类分开。在监督学习中,当输入有标签的训练数据时,SVM会输出一个最优超平面,用于对新示例进行分类。本研究中使用的SVM变体包括线性SVM、二次SVM、三次SVM、精细高斯SVM、中等高斯SVM和粗糙高斯SVM。
  • K近邻(K-Nearest Neighborhood) :KNN算法通过估计数据点与周围数据点的关系,来判断该数据点属于某个组的可能性。本研究中使用的K-NN变体包括精细K-NN、中等K-NN、粗糙K-NN、余弦K-NN、三次K-NN和加权K-NN。
  • 集成分类器(Ensemble) :集成分类器是指一组在数据集上共同训练的单个分类器。本研究中使用的集成分类器变体包括提升树、袋装树、子空间判别、子空间K-NN和RUS提升树。
4. 数据集

数据集包含5种静态手势(手部姿势),通过Vicon动作捕捉相机系统对10名用户进行捕捉。手套上的某些关节附有红外标记,手套背面的刚性图案用于建立平移和旋转不变的局部坐标系。捕捉的手势包括单指指向、握拳、平展手掌、双指指向和手指卷曲(抓取)。每个手势都在用户短时间保持的数据流中捕捉了数百个实例。所有缺失值、值为0的数据以及距离原点超过200mm且转换为局部坐标的数据都被移除。数据集的详细信息和属性信息可从数据源获取。

5. 分析与结果

本研究的主要目的是对不同的人工智能分类算法在手部姿势分类方面的不同参数进行详细的比较研究。为此,使用了MATLAB(分类学习器应用程序)2018作为工具,该应用程序包含了本研究中讨论的各种分类算法及其不同变体。

测试的机器学习算法根据不同的分类参数得出一组结果,测试参数包括“训练准确率(%)”、“测试准确率(%)”、“预测速度(10K - Obs/s)”和“训练时间(s)”。通过这些参数来找出最有能力的分类算法。在分类算法中,主要用于检查和验证算法的参数是测试准确率(%)。

根据结果,精细高斯SVM获得了最高的测试准确率,其次是子空间KNN。选择96%作为最低阈值,满足该阈值的算法按排名从高到低依次为:袋装树、精细KNN、加权KNN、三次SVM、中等高斯SVM。在预测速度方面,排名前两位的算法是粗糙树和中等树,精细树在预测速度上排名第三。在训练速度方面,三次SVM和精细高斯SVM是排名前两位的算法,二次SVM和三次KNN分别排名第三和第四。在训练准确率方面,精细高斯SVM、精细KNN、加权KNN、袋装树和子空间KNN的训练准确率均为100%,三次SVM的训练准确率为98.5%。

综上所述,精细高斯SVM是用于手部姿势分类的最优化和高效的机器学习算法,其训练准确率为100%,测试准确率为100%,预测速度为0.049,训练速度为298.24。这些测量值可以通过图形直观地看到。

详细的22种测试分类算法的结果如下表所示,同时还展示了每个算法的混淆矩阵,通过该矩阵可以验证每个候选算法的性能。表格中还包含了所有算法的真阳性和假阴性值。

分类器 训练准确率(%) 测试准确率(%) 预测速度(obs/s) 训练时间(s)
决策树 - 精细树 76.50 84.0956 ~410,000 15.86
决策树 - 中等树 62.8 73.2617 ~640,000 9.9451
决策树 - 粗糙树 46.5 68.3068 ~1,200,000 2.3163
判别分析 - 线性 59.3 66.2855 ~33,0000 3.3856
判别分析 - 二次 83.6 88.681 ~280,000 1.575
支持向量机 - 线性 64.2 75.1213 ~100,000 205.16
支持向量机 - 二次 91.3 94.2596 ~5100 311.55
支持向量机 - 三次 98.5 98.1173 ~10,000 276.81
支持向量机 - 精细高斯 100 100 ~490 298.24
支持向量机 - 中等高斯 95.4 96.0383 ~2500 72.419
支持向量机 - 粗糙高斯 77 87.3527 ~890 156.67
K近邻 - 精细KNN 100 98.6602 ~1200 79.013
K近邻 - 中等KNN 91.3 92.6311 ~1400 59.345
K近邻 - 粗糙KNN 80.7 87.5144 ~940 82.859
K近邻 - 余弦KNN 91.3 92.7466 ~1000 77.136
K近邻 - 三次KNN 88.8 90.9217 ~41 1968.6
K近邻 - 加权KNN 100 98.614 ~1100 71.566
集成分类器 - 提升树 74.9 77.5121 ~50,000 35.059
集成分类器 - 袋装树 100 99.4109 ~32,000 19.453
集成分类器 - 子空间判别 57.9 68.2144 ~16,000 9.8466
集成分类器 - 子空间KNN 100 99.4225 ~15,000 11.54
集成分类器 - RUS提升树 65.2 73.3426 ~50,000 32.569

以下是分析流程的mermaid流程图:

graph TD
    A[收集数据集] --> B[选择分类算法]
    B --> C[训练模型]
    C --> D[评估模型]
    D --> E{是否满足要求}
    E -- 是 --> F[确定最佳算法]
    E -- 否 --> B

通过以上分析,可以清晰地看到不同算法在手部姿势分类中的表现,为实际应用提供了有价值的参考。

人工智能算法在手部姿势分类中的实证评估

6. 结果可视化与分析

除了上述表格中的数据,还可以通过图形来直观地展示测试结果。测试图展示了真实值(蓝色)在X轴(样本)上与分类值(红色)在Y轴(输出)上的关系。在这些图中,两条曲线的交点表示对应样本的正确识别。图形结果也表明精细高斯SVM是该问题领域的最优算法。

下面是对各参数排名靠前算法的详细分析:
- 测试准确率
- 精细高斯SVM以100%的测试准确率位居榜首,这表明它在对手部姿势进行分类时具有极高的准确性,能够很好地泛化到未见过的数据上。
- 子空间KNN紧随其后,测试准确率也达到了99.4225%,说明该算法在手部姿势分类任务中也有出色的表现。
- 当以96%为最低阈值时,袋装树、精细KNN、加权KNN、三次SVM、中等高斯SVM也都满足要求,这些算法在测试准确率方面都有较好的表现。
- 预测速度
- 粗糙树和中等树在预测速度方面表现突出,分别达到了~1,200,000 obs/s和~640,000 obs/s。这意味着它们能够快速地对新的手部姿势数据进行分类,适用于对实时性要求较高的场景。
- 精细树的预测速度也较快,排名第三,为~410,000 obs/s。
- 训练速度
- 三次SVM和精细高斯SVM在训练速度方面表现优异。三次SVM的训练时间为276.81s,精细高斯SVM的训练时间为298.24s。这表明它们能够在较短的时间内完成模型的训练,提高了开发效率。
- 二次SVM和三次KNN的训练速度也相对较快,分别排名第三和第四。

7. 结论

从整个研究来看,精细高斯SVM在多个关键参数上都表现出色,是用于手部姿势分类的最优化和高效的机器学习算法。其训练准确率达到100%,测试准确率也为100%,预测速度为0.049(10K - Obs/s),训练速度为298.24s。而线性判别分析在各项指标上表现相对较差,是相对不太可行的算法。

在实际应用中,如果对分类的准确性要求极高,且对训练时间和预测速度有一定的容忍度,那么精细高斯SVM是首选算法。如果对实时性要求较高,例如在游戏等应用场景中,粗糙树和中等树等预测速度快的算法可能更合适。

8. 未来展望

虽然本研究已经对多种人工智能算法在手部姿势分类上进行了实证评估,但仍有进一步研究的空间。未来可以考虑以下几个方向:
- 开发新的深度学习算法变体 :深度学习在图像识别等领域已经取得了巨大的成功,可以尝试开发新的深度学习算法变体,并将其应用于手部姿势分类任务中,以进一步提高分类的准确性和效率。
- 构建预训练模型 :通过大量的数据进行预训练,构建适用于手部姿势分类的预训练模型。这样可以减少在特定数据集上的训练时间,提高模型的泛化能力。
- 多模态融合 :结合多种模态的数据,如视觉数据、传感器数据等,进行手部姿势分类。多模态融合可以提供更丰富的信息,从而提高分类的准确性。

以下是未来研究方向的mermaid流程图:

graph LR
    A[开发新深度学习算法变体] --> B[提高分类性能]
    C[构建预训练模型] --> B
    D[多模态融合] --> B

总之,手部姿势分类是一个具有广阔应用前景的研究领域,随着技术的不断发展,相信会有更多高效准确的算法被开发出来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值