Analysis of Learning from Positive and Unlabeled Data

最新推荐文章于 2025-08-21 11:28:23 发布

原创

最新推荐文章于 2025-08-21 11:28:23 发布 · 1.1k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#PUlearning #机器学习

本文深入探讨了PU学习，即仅使用正例和未标记数据进行学习的问题。文章指出，使用非凸损失函数的必要性，因为凸函数如hinge loss在PU学习中可能导致偏差。同时，论文讨论了类先验估计不准确对结果的影响，揭示了在正类比例较大的情况下，即使先验估计偏差较大，分类效果也不会受到太大影响。此外，文章提出了PU分类的泛化误差界，并介绍了如何将PU学习转换为成本敏感分类问题。

PU learning论文阅读。

本文从基本的分类损失出发，推导了PU的分类问题其实就是Cost-sensitive classiﬁcation的形式，同时，通过实验证明了如果使用凸函数作为loss function，例如hinge loss会导致错误的分类边界（有bias），因此需要使用例如ramp loss之类的凹函数。同时，论文还对先验 $\pi$ 存在偏差的情况进行了讨论，说明了如果样本中大部分都是正样本，那么就算先验差距比较大，但对总体的分类效果没有太大影响。最后对分类边界进行讨论，证明了使用PU进行分类的误差小于监督学习误差的 $2\sqrt{2}$ 倍。

基本概念和定义

Ordinary classification
- Bayes optimal classiﬁer的目标是最小化misclassiﬁcation rate，这在Introduction to Statistical Machine Learning By Masashi Sugiyama 书里有定义，直观理解就是最小化期望错分率：
- $\pi R_1 (f) + (1 - \pi) R_{-1}(f)$
- 这里的 $R_1$ 表示false negative rate，也就是分错正类的概率，乘以先验正类的概率 $\pi$
- $R_{-1}$ 表示false positive rate，也就是分错负类的概率，乘以先验负类的概率 $1-\pi$
- 这样，对分错样本的概率分别乘以其先验概率，就是其错分概率的期望。
Cost-sensitive classiﬁcation
- 如果对于某种错误我们的敏感程度不一样，那么就乘以不同的权重，重新定义为：
- $\pi c_1 R_1(f) + (1-\pi) c_{-1}R_{-1}(f)$
- 这里用 $c_1$ 和 $c_{-1}$ 分别表示对两种错分的代价
PU classification
- 定义在未标记数据集 $X $ 中的分布：
  - $P_X = \pi P_1 + (1-\pi) P_{-1}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。