【每周一文】Learning Classifiers from Only Positive and Unlabeled Data(2008)

本文探讨了在仅拥有正样本和未标记数据的情况下,如何利用这些信息进行分类器训练。通过引入随机变量和假设,建立了正样本和未标记样本之间的关系,提出了常数C的估计算法以及样本加权策略,从而优化分类效果。通过这种方法,可以在缺乏负样本的情况下,有效解决PULearning问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

本文也是用于求解PULearning问题,并且提出在样本满足一定分布情况下,根据正样本和未标记样本作为负样本训练出来的分类模型,预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。
根据该假设提出两种模型训练思路,能够得到最好的效果。

问题求解

对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过,则p(x,y,s)满足一定的概率分布。
变量含义x为样本特征数据;y为样本标签,y=1表示为正样本;s=1表示该样本是否是标记过的样本,如果s=1则该样本被标记过,此时y肯定为1.
问题转变为求解p(y=1|x,s=0)的概率。
根据以上随机变量定义,则有:
p(s=1| x,y=0)=0,如果某样本为负样本并且该样本标记为1,和假设矛盾,概率为0;即只有正样本被标记。
此外还假设正样本选取满足一个概率分布,和特征没有关系,即p(s=1|x,y=1)=p(s=1|y=1),即“selected completely at random”这里我们将此值即为c=p(s=1|y=1)

原理

根据以上假设样本数据是按照某分布p(x,s,y)生成的,并且满足以上两个条件。
假设g(x)是对数据s=1和s=0得到的分类器,目标转换为寻找真实分类器f(x)和g(x)的关系。

p(y=1|x) = p(s=1|x)/c
1. 即f(x)和g(x)只相差一个常数值。
2. 简单推导P(y=1|x)=p(y=1^s=1|x) —前提假设
=p(y=1|x)p(s=1|y=1,x) —-条件概率
=p(y=1|x)p(s=1|y=1) ——前提假设2

常数C的估计算法

根据上述定理,问题转换为求解常数c,有几个策略可以用于估计c
一般思路是通过交叉验证获取,假设交叉验证集合为V,其中正样本集合为P。

策略一: e1=1nxPg(x) ,如果x为正样本此时g(x)=p(s=1|y=1)
策略二: e2=xPg(x)xVg(x)
策略三: e3<

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值