文本风格模型与应用介绍
1. 文本分类概述与定义
文本分类系统的主要目标是根据文本的内容或风格,自动为其分配预定义的标签。这里的文本指自然语言的书写内容,而非音频或文本图片(如中世纪手稿的扫描件)。文本可以有多种形式,如小说、诗歌、演讲记录、遗嘱信件、博客文章、推文集合等。
文本存储格式多样,包括结构化(如 XML 格式,文档结构和逻辑组件清晰)、半结构化(如带有 HTML 标签的网页,逻辑结构部分呈现)和非结构化(如口语转录,可视为单词流)。文档结构对某些应用有用,对另一些则并非关键。目标文本可以是整个作品的一部分,如小说的章节、戏剧的场景或电子邮件的段落。文档还可能关联表格、图形、图片、视频或超链接等非文本元素,这些元素对确定真实标签有帮助,但这里主要关注文本内容。
标签代表了感兴趣的可能类别,可看作对分类任务无实际意义的标签。标签可以是候选作者姓名(如莎士比亚、马洛、培根)、文本体裁(如戏剧、诗歌、小说)、关键词或主题,甚至是二元答案(如是或否)。确定标签时会遇到多种情况:
- 可能类别集合可能只有两个,如判断文本作者性别或是否为单人创作。
- 通常目标标签是一组可能答案,测试文档只能分配一个标签,如语言识别。
- 有时一个文档可分配多个标签,如新闻快讯可能有“科技”“印度”“新兴市场”等关键词。
预定义标签还可形成更复杂的结构,如树形结构。这种情况下,输入文本可分配多个标签、关键词或描述符,这对应使用受控词汇表的自动索引过程,如医学主题词表(MeSH)包含 25000 多个描述符。
文本分类应用大致可分为两个主要子领域:
1. 基于语义的分配 :帮助用户探
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



