只有正样本和无标签样本时如何构建分类器

最新推荐文章于 2023-05-13 11:13:50 发布

转载最新推荐文章于 2023-05-13 11:13:50 发布 · 2k 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI0MjU1NTk3NA==&mid=2247488466&idx=1&sn=7417136e4ba0fbe89ac978d7612cd0e5&key=cdf90f9bd9e67c9bd2b9d98f7d0d57949790cfed1c48807dc844f947a527c16a59d4a00bd9ffd66506c1d7aa0b19094a742674f7b1ff2be5b5f900d7f198b115e29fe0f672f45d5b

机器学习专栏收录该内容

306 篇文章

订阅专栏

本文探讨了使用正样本和无标注样本构建文本分类器的方法，重点介绍了两阶段策略的多种实现，包括PEBL、DNF等，并对比了不同方法的效果，提出了一种基于有偏SVM的改进方案。

Building Text Classifiers Using Positive and Unlabeled Examples

Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee, Philip S. Yu

University of Illinois at Chicago, National University of Singapore/Singapore-MIT Alliance, IBM T. J. Watson Research Center

https://www.cs.uic.edu/~liub/publications/ICDM-03.pdf

这篇文章主要研究如何利用正样本和无标注的样本来构建文本分类算法。

这类问题的关键特性在于，没有可以用来学习的负样本。已有相关文献提出一些技巧来解决这类问题。

这些技巧基于同一套思想，意即分两步来构建分类器。这些的不同点在于，这两步利用不同的方法来实现。

这篇文章，首先介绍这两个步骤中的一些新方法，并且对这两步重的所有可能组合进行比较综合评估。然后，提出一种原理性更强的方法来解决该问题，基础为SVM的有偏形式，结果显示该方法更加精确。

一些现有方法的两步走策略简介如下

其中PEBL表示Positive example based learning

DNF表示Disjunctive Normal Form

下面是LPU的来源

下面是先前的一些理论基础

NB简介如下

其中RN表示Reliable negative

第二种方法的简介如下

spy方法细节描述如下

下面是伪代码

PEBL方法的伪代码如下

针对第二步，有以下四种技巧

其中下面是对SVM的简介

下面是EM与NB结合的细节步骤

下面是迭代SVM的步骤伪代码

ROC-SVM的伪代码如下

这篇文章所提方法为有偏SVM

衡量该算法的指标不能用F score，但是可以利用类似的指标，比如下面这种指标

数据集及分割策略如下

第一步采用的几种方法如下

第二步采用的几种方法如下

结果统计如下

下面是一些结论

关于S-EM

关于PEBL

关于Spy+SVM

关于其他几个的结论如下

关于NB

纯NB和纯SVM的对比如下

这篇文章所提算法跟其他算法效果对比如下

参考代码

https://github.com/aldro61/pu-learning

https://github.com/kiryor/nnPUlearning

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。