17、基于文档和术语标签交互式监督的文本分类

基于文档和术语标签交互式监督的文本分类

1. 引言

近年来,受垃圾邮件过滤、电子邮件路由、网页目录维护和新闻过滤等应用的推动,文本分类得到了广泛研究,目前最先进的分类器在知名基准测试中可达到高达90%的准确率。不过,许多机器学习文本分类研究的假设在现实应用中并不成立。例如,特征的区分往往需要大量人类知识来进行工程设计和选择,而且很多时候并没有现成的标注数据集,甚至标签集也需要随着用户对应用的理解而不断演变。

在这种背景下,构建能与用户进行积极对话以获取人类关于特征和文档标签知识的机器学习工具具有很大的发展空间。我们提出了HIClass(超交互式文本分类)系统,旨在提供紧密的交互循环。该系统将支持向量机(SVM)进行扩展,使其能够自然地吸收人类在特征工程、术语包含/排除以及术语和文档标签方面的输入。

2. HIClass文本分类工作台

HIClass的架构分为上下两层,下层展示了主要的数据实体和处理单元,包括少量标注文档(通过采样分为训练集和测试集)和大量未标注文档。特征提取器将文档转换为特征向量,用户可以交互式地将特征定义得更加复杂。系统能够存储和按名称访问多个具有拟合参数的分类器,方便进行参数比较分析、对保留数据的性能评估以及深入的错误诊断。上层则展示了用户与系统交互的主要菜单/模式。

2.1 文档和分类模型

文档被视为特征的集合,通常特征是经过词干提取和大小写归一化等简单处理后的单词,但用户也可以根据领域知识动态定义特征。例如,将月份名称或货币名称合并为合成特征,或者将“blood bank”定义为单个复合特征。

HIClass支持线性加法分类器模型,每个类别都与词汇表中T个术语对应的一组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值