多标签分类与微笑识别技术研究
多标签分类中的多样性准则实验
初步实验与方法选择
在多标签分类的研究中,对初步实验结果因空间限制仅以图形形式展示。通过可视化的 Nemenyi 事后临界距离可看出,测试方法间无显著差异。对于基于响应的多样性准则,基于 Q - 度量的算法平均排名最低,因此该多样性度量被选入实验第二阶段进行研究。
而基于排列的多样性度量情况较复杂,没有单一算法平均排名最低。最终选择基于优先级准则的多样性度量,原因有二:一是该准则在两个质量度量中胜出,两次排名第二;二是此准则会统计某些标签在两个排列中先于给定标签的次数,与构建分类器链的公式最为接近。
主要实验结果分析
主要实验的完整结果见表 4,统计评估结果见表 2 和表 3,同时结果也以图形形式展示。结果清晰表明,所提出的方法在宏平均 F1 准则下实现了最高的分类平等性,且所有统计测试都证实了该结果的统计显著性。此外,该方法在所有考虑的质量准则下平均排名最低。
有趣的是,利用基于响应的多样性准则往往会降低所有考虑质量准则下的分类质量,不过仅在宏平均 F1 度量上差异显著。这表明对于高度不平衡的基于二元相关性(BR)的转换,基于链结构的多样性准则能带来更多有用信息,从而提高分类质量。
研究结论
研究探讨了为基于分类器链的多标签分类器集成量身定制的基于结构的多样性准则的应用可能性。实验评估取得了非常有前景的结果,即所提出的多样性准则能显著提高基于分类器链(CC)的集成的分类质量。而且与参考方法不同,该准则无需验证集来计算集成的多样性。未来研究将继续探索基于模型的 CC 集成的多样性度量,下一步将考虑更复杂的依赖关