PU learning

最新推荐文章于 2025-02-13 14:00:25 发布

baidu_33516129

最新推荐文章于 2025-02-13 14:00:25 发布

阅读量3.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：弱监督文章标签： PU learning

本文链接：https://blog.youkuaiyun.com/baidu_33516129/article/details/83039622

弱监督专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了PU学习（Positive-Unlabeled Learning），一种仅有正样本情况下的机器学习方法，适用于检索、离群点检测及一对多分类场景。文章分析了两种解决负样本不可获问题的方法，提出在已知未标注样本类别比例时，可通过代价敏感学习解决PU学习问题，并介绍了具体公式推导及实验方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PU learning

postive learning ,仅有正样本情况下的学习。其应用范围：

Retrieval(检索)
Inlier-based outlier detection.
One-vs-rest classification. 负样本太过分散而不能标注

目前有两种解决方法

启发式地从未标注样本里找到可靠的负样本，以此训练二分类器，该方法问题是分类效果严重依赖先验知识。
将未标注样本作为负样本训练分类器，由于负样本中含有正样本，错误的标签指定导致分类错误。

理论分析

如果未标注样本里class prior已知的话，PU learning问题可使用cose-sensitive learning方法解决，即原则上，PU 分类可以通过诸如加权支持向量机（weighted SVM）解决。
具体点，对于未标注数据:
$PX=πP1+(1−π)P−1P_X = \pi P_1 + (1-\pi)P_{-1}$
其中 $π\pi$ 为未知的class prior。

Cost-sensitive classification的权重误分率期望：
$\pi {R_1}(f) + (1 - \pi ){R_{ - 1}}(f)\\ = \pi {R_1}(f \ne 1) + (1 - \pi ){R_{ - 1}}(f \ne - 1) （1）$
其中R代表误分率，对于PU learning, 同样有上述形式，但是 $R_{-1}(f)$ 需要通过 $R_X(f)$ 转换变形得到，
$KaTeX parse error: Expected 'EOF', got '\eqalign' at position 1: \̲e̲q̲a̲l̲i̲g̲n̲{ & {R_X}(f) = …$
这里其实有X划分到应为-1，如果1则是误分；将上式子（2）代入（1）中有，
$\pi {R_1}(f) + (1 - \pi ){R_{ - 1}}(f)\\ =\pi {R_1}(f) +R_X(f)-\pi P_1(f(X) = 1)\\ =\pi {R_1}(f) +R_X(f)-\pi(1-R_1(f))\\ =2\pi R_1(f)+R_X(f)-\pi （3）$
由于 ${R_1}(f) = \mathbb E_{_1}[{\ell _H}(g(X))] {R_x}(f) = \pi \mathbb E_{1}[{\ell _H}( - g(x))] + (1 - \pi ){\mathbb E_{ - 1}}[{\ell _H}( - g(X))]$
代入上有
$JPU−H(g)=πE1[ℓH(g(X))]+(1−π)E−1[ℓH(−g(X))]+πE1[ℓH(g(X))+ℓH(−g(X))]−πJ_{PU-H}(g)=\pi\mathbb E_1[\ell_H(g(X))]+(1-\pi)\mathbb E_{-1}[\ell_H(-g(X))]+\pi\mathbb E_1[\ell_H(g(X))+\ell_H(-g(X))]-\pi$
另一种形式即
$R^pu(g)=2πpR^p+(g)+R^u−(g)−πp {{\hat R}_{pu}}(g) = 2{\pi _p}\hat R_p^ + (g) + {{\hat R}_u}^ - (g) - {\pi _p}$

其中：$ \hat R_p^ + (g) = (1/{n_p})\mathop \sum \limits_{i = 1}^{{n_p}} \ell (g(x_i^p), + 1) $和 $ \hat R_n^ - (g) = (1/{n_p})\mathop \sum \limits_{i = 1}^{{n_n}} \ell (g(x_i^n), - 1)$
前两项为普通误差项，后面多多余惩罚项，因此由于多余项的存在，可能无法最小化 $J_{PU-H}(g)$ ，当且仅当
$ℓH(g(X))+ℓH(−g(X))\ell_H(g(X))+\ell_H(-g(X))$ 为常数时，能获得最优解
<img src = leanote://file/getImage?fileId=5bbdf300db24ba219b000005) width = 80%>

因此关键是采样合适的loss function.另外，对于PU learning，在（2）中求取 $R_{-1}$ 项时， $RX(f)−πP1(f(X)=1)R_X(f)-\pi P_1(f(X) = 1)$ 可能为负，因此将该项改为 $max{0,RX(f)−πP1(f(X)=1)}max\{0, R_X(f)-\pi P_1(f(X) = 1)\}$ 防止过拟合。

实验

将未标注数据全部作为negative样本训练随机森林
随机选取与positive等量negative 训练分类并对剩余样本预测，重复多次，将概率平均
PU learning

在这里插入图片描述

其他

采用非线性模型时，可将unlabeled采样为若干份，每份大小与positive类似，然后直接训练多个模型，将得到的概率平均即得，目前该方法在无先验知识分类时最好。

最近看了一些PU learning的东西，总结一下，不对之处敬请指正！

Reference

du Plessis, M. C., Niu, G. & Sugiyama, M. Analysis of Learning from Positive and Unlabeled Data. Advances in Neural Information Processing Systems 27 703–711 (2014).
Convex Formulation for Learning from Positive and Unlabeled Data, ICML, 2015.
1.Kiryo, R. & Niu, G. Positive-Unlabeled Learning with Non-Negative Risk Estimator. NIPS 11 (2017).