基于语篇的文本抽象类别识别
在文本分类领域,利用语篇信息进行抽象文本类别的识别是一项具有挑战性但又极具潜力的任务。本文将详细介绍相关的研究内容,包括数据集的构建、评估结果以及工业应用的相关考虑。
1. 数据集构建
为了进行文本和文档分类的研究,构建了多个数据集,涵盖不同的领域:
- 文学领域 :从卡夫卡的小说《审判》中选取200个描述与法庭相关人员互动的段落,作为元文档的训练集。同时,手动挑选了同一领域(关于《审判》的学术文章)的100个段落作为对象级文档集。
- 查询分类领域 :构建了两个数据集。
- 请求数据集 :从Alexa、Api.ai、Microsoft QnA maker、IBM Watson聊天机器人开发环境等多个来源获取请求,还包括银行网站(如ICICI Bank FAQ)的请求,共收集了1860个金融领域的请求。
- 需要答案的问题数据集 :从银行网站(如CitiBank、Fidelity、Bank of America等)抓取金融领域的1600个常见问题。
在所有四个领域中,将数据分成5个子集用于训练和评估(Kohavi 1995; Ben - David 2008)。对于设计文档、金融/法律和查询类型的评估结果,由质量保证人员和实习生进行评估;对于文学领域,则由作者进行评估。
2. 评估结果
通过多种分类方法对四个领域的文本和文档进行分类,并得到了相应的评估结果,具体如下表所示:
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



