文本分类:原理、方法与应用
1. 文本分类概述
文本分类是自然语言处理(NLP)中的一个重要问题,它的任务是将对象从一个集合分配到两个或更多的类别或范畴中。在NLP中,许多任务都属于分类任务,如下表所示:
| 问题 | 对象 | 类别 |
|---|---|---|
| 标注 | 单词的上下文 | 单词的标签 |
| 消歧 | 单词的上下文 | 单词的词义 |
| 介词短语附着 | 句子 | 解析树 |
| 作者识别 | 文档 | 作者 |
| 语言识别 | 文档 | 语言 |
| 文本分类 | 文档 | 主题 |
文本分类的目标是对文档的主题或主题进行分类。例如,路透社文本集合使用了一组典型的主题类别,如“并购”、“小麦”、“原油”和“收益报告”等。文本分类的一个应用是为特定的兴趣群体过滤新闻流。
统计分类问题通常可以通过
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



