离散数据多标签分类的特征约简
1. 引言
传统的单标签分类中,每个实例仅关联一个标签。而多标签分类则是预测实例的类别标签,其中每个实例可以属于多个类别。多标签分类在许多领域都有应用,如新闻分类、图像和视频标注、音乐情感分析、文档情感分析和场景分类等。
单标签分类使用的性能指标不适用于多标签分类,多标签分类常用的指标包括汉明损失、单错误率、覆盖度、排序损失和平均精度等。
2. 相关工作
2.1 多标签分类方法
- ML - KNN :一种多标签懒惰学习方法,基于传统的 k 近邻算法,通过计算标签的先验概率和后验概率来确定实例的标签。
- Label power - set(LP) :将标签集的子集视为一个标签,但可能导致类别数量过多且每个类别实例较少。
- RAkEL :对 LP 方法的改进,将标签集划分为较小的随机子集并应用 LP 方法。
- 随机游走 KNN 方法 :每个实例通过其 k 近邻关联一个链接图,对新样本分类时在链接图中进行随机游走。
- Binary Relevance(BR) :一种多标签分类方法。
- 其他方法 :一些方法利用标签相关性或标签层次结构。
2.2 特征约简方法
特征约简可分为特征选择和特征提取。特征选择方法主要有
超级会员免费看
订阅专栏 解锁全文
4196

被折叠的 条评论
为什么被折叠?



