极限多标签之CRAFTML

摆烂办不到

已于 2022-09-19 15:52:03 修改

阅读量356

点赞数

分类专栏： Machine learning 文章标签：聚类机器学习

于 2022-09-15 20:43:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wuyanxue/article/details/126879285

版权

Machine learning 专栏收录该内容

28 篇文章

订阅专栏

《CRAFTML, an Efficient Random Forest for Extreme multi-label learning》, ICML2018 – 阅读笔记

方法以及理论性比其FastXML和PfastreXML要简单不少。核心思想：聚类+随机森林

相关工作部分介绍的似乎比较全面。

相关工作

优化技巧和并行代表工作：PDSparse, PPDSparse (是PDSparse的
并行化拓展)，DISMEC。
降维代表工作：WSABIE, LEML, SLEEC, AnnexML。
基于Tree的方法，代表工作：LPSR, FastXML, PFastReXML, PLT。
其中LPSR，FastXML和PFastReXML都是对样本空间进行划分，相似的样本和对应的标签被重组到相同的subset。
PLT则是对标签空间进行划分，直到每个标签子集只包含一个标签。

本文工作

本文构建一个随机森林，其中每一颗树（k叉）由算法1递归构建。
在这里插入图片描述

其中testStopCondition为停止准则，只要满足one of:
(1) 节点的样本数小于阈值;
(2) 节点的所有实例具有相同的特征；or
(3) 节点的所有实例具有相同的标签。
其中trainNodeClassifier由算法2给出：
算法2

可以看到，算法2实际上就是先对样本空间和标签空间进行降维，然后进行聚类，注意，这里聚类是根据降维后的标签空间进行的。
将标签聚类成k个簇，然后k个簇的样本中心构成了不同的分类器（在预测的时候，样本根据与中心的距离决定path），这k个簇也就构成了当前节点的k个子节点。
computeMeanLabelVector就是保留叶子节点所有标签的均值。

要注意对随机投影矩阵 $P_x,P_y$ ：
(1) 每个树都不一样，保证随机性；
(2) 考虑两种随机投影技术：一种是产生于标准高斯分布（不懂），另外一种产生于稀疏正交投影（也被称为hashing trick），本文偏爱后者。
对聚类而言，初始簇中心采用k-means++策略，样本通过球形kmeans(Loyd算法)进行划分，距离度量采用cosine。

本文的算法部分相当简单，在这之后本文分析了一系列的计算复杂度，也都比较简单。

总结

本文提出了一种基于聚类的随机森林集成方法进一步提升了XMC的分类性能。
关键点：
(1) 对样本标签进行聚类，k个簇构成k个子节点。
(2) 对样本和标签都进行低维映射，降低了计算复杂度。

优点：实现简单，易于理解，不依赖复杂的优化scheme，计算复杂度低；缺点：不容易确定簇的个数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。