文本分类与短信规范化的研究进展
在当今数字化的时代,文本分类和短信处理在信息检索和自然语言处理领域中扮演着至关重要的角色。本文将深入探讨两种重要的研究方向:基于文档属性关系(DAR)的作者归属(AA)分类方法,以及利用机器翻译技术进行短信规范化的方法。
基于DAR的作者归属分类
在作者归属分类任务中,传统方法往往在处理不平衡或训练数据较少的语料库时表现不佳。而DAR方法通过考虑术语、作者和上下文词汇丰富度之间的关系,能够在最终表示中保留写作风格,从而在这些具有挑战性的情况下取得更好的分类效果。
实验对比
研究人员将DAR与支持向量机(SVM)和张量空间模型(STM)等传统方法进行了对比,使用了C50语料库中的2500个最常见的字符3-gram。以下是不同模型在平衡和不平衡数据集上的分类准确率:
| 每个作者的实例数 | 模型 | 平衡 | 不平衡 |
| — | — | — | — |
| 50 | BOT - SVM | 80.8 | 64.4 |
| | DAR - SVM | 72.1 | 63.1 |
| | BOT - 1NN | 36.4 | 50.3 |
| | DAR - 1NN | 76.0 | 67.3 |
| | TSM - STM | 78.0 | 67.8 |
| 10 | BOT - SVM | 64.2 | 62.4 |
| | DAR - SVM | 62.1 | 63.9 |
| | BOT - 1NN | 33.8 | 41.4 |
| | DAR - 1NN | 66.9 | 65.6 |
| | T
超级会员免费看
订阅专栏 解锁全文
5

被折叠的 条评论
为什么被折叠?



