Learning Classiﬁers from Only Positive and Unlabeled Data

最新推荐文章于 2023-06-22 08:49:09 发布

原创

最新推荐文章于 2023-06-22 08:49:09 发布 · 743 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#PUlearning #机器学习

本文探讨了在PU学习环境下，如何利用正例和未标记数据来估计分类器。通过证明分类器和PU分类器之间的关系，提出了三种常数c的估计方法。通过权重调整策略改进未标记数据的处理，实验证明了这种方法的有效性。

PU learning 经典论文。

本文主要考虑在SCAR假设下，证明了普通的分类器和PU分类器只相差一个常数，因此可以使用普通分类器的方法来估计 $p (s ∣ x) $ ，进而得到 $p (y ∣ x) $ 。同时提供了三种方法来估计这个常数，最后，还对先验 $p (y) $ 的估计提供了思路。

Learning a traditional classifier

概念定义
- $x $ 表示一个样本， $y $ 表示其label（0或者1）， $s $ 表示是否被select
- 那么，在PU问题中，当$s =1 $时，一定有$ y = 1$
- $P (s = 1 ∣ x, y = 0) = 0 $ 一定成立
两种采样假设
- signle-training-set
  - 所有的样本都是从 $(x, y, s)$ 这个三元组的分布中采样的
- case-control
  - 两个数据集（正类，未标记）是从三元组中独立的抽样出来的。当采样正类时被称为case，采样未标记数据时称为contaminated controls
- 这两种假设有很明显的区别。总的来说，第一种假设比第二种假设要严格得多，也就能提供更多的信息：
  - 两种假设都能让我们估计 $p (x)$
  - 但只有在第一种假设下，能够让我们很容易的估计出 $p (s = 1)$ ，因此也更容易估计出 $p (y = 1)$ ，二第二种条件不可以。
基本假设
- 我们需要训练的传统分类器是： $f (x) = p (y = 1 ∣ x) $
- 然而，对正类数据没有任何假设的前提下，我们很难得到较好的分类器
- 因此，论文给出的假设是，正类样本数据是从正类数据中完全随机的抽取出来的。
  - 也就是说，当 $y = 1 $ 时，无论 $x $ 取说明值，它们的概率都是相同的： $p (s = 1 ∣ x, y = 1) = p (s = 1 ∣ y = 1) $
  - 这个假设被称为selected completedly at random
- 我们定义一个nontraditional classifier： $g (x) = p (s = 1 ∣ x) $
- 因此，我们需要一些定理来证明如何将非传统的分类器转化为传统的分类器
Lemma：假设SCAR条件成立，那么 $\frac{p(s=1|x)}{c}$ ，其中 $c = p (s = 1 ∣ y = 1) $
- 证明：由于我们的假设是： $p (s = 1 ∣ x, y = 1) = p (s = 1 ∣ y = 1) $ ，因此：
- $KaTeX parse error: No such environment: equation at position 7: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split}p(…$
- 将我们的分类器带入为： $\frac{g(x)}{p(s=1|y=1)}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。