从正例和无标签数据中学习分类器及文本聚类的研究
在数据挖掘和文本处理领域,从正例和无标签数据中学习分类器以及缓解文本聚类的高维问题是重要的研究方向。接下来将详细介绍相关方法和实验结果。
从正例和无标签数据学习分类器
在某些用户兴趣检索场景下,正例信息容易获取,无标签数据也能轻松收集。例如,为特定用户将网页分类为“有趣”的情况,用户书签指向的文档可定义为正例集合,但负例却完全不可得,不过无标签示例在万维网上很容易获取。
理论研究表明,从正例和无标签数据中学习时,有时将无标签数据视为负例就足够了。近期提出了一些解决该问题的算法,部分算法基于两步策略,具体如下:
- 第一步:从无标签集合中识别可靠的负文档集合
- S - EM :使用Spy技术,即从正例集合P中随机选择一组正文档S放入无标签集合U中,S中的文档作为“间谍”文档,以此推断U中未知正文档的行为。
- Roc - SVM :使用Rocchio算法。该算法中每个文档表示为向量,通过构建每个类别的原型向量,利用余弦相似度度量来进行分类。公式为:
[
\vec{G} {C_j}=\frac{\alpha\sum {d\in C_j}\vec{d}-\beta\sum_{d\in D - C_j}\vec{d}}{\vert\vert\alpha\sum_{d\in C_j}\vec{d}-\beta\sum_{d\in D - C_j}\vec{d}\vert\vert}
]
- PEBL
超级会员免费看
订阅专栏 解锁全文
7592

被折叠的 条评论
为什么被折叠?



