历时文本分类与情感极性分类研究
历时文本分类研究发现
在对1961 - 1991年书面英式英语的研究中,有诸多重要发现。研究结果显示,新闻类别(Press category)中的文体历时变化比其他三个文本类别更为显著。同时,同一宽泛文本类别内的不同体裁具有很强的异质性,不同体裁中不同特征组经历了显著的历时变化,且变化程度差异明显。在大多数被研究的体裁中,词汇丰富度(LR)和Coleman - Liau可读性指数是发生显著变化的特征。
在实验对比方面,将统计测试作为预处理(特征选择)步骤,在某些情况下能显著提高分类准确率,而在其他情况下并无显著影响。与CfsSubsetEval属性选择算法相比,统计测试在多数情况下表现更好或相当(仅在体裁D中,对于朴素贝叶斯分类算法除外)。这主要是因为CfsSubsetEval算法在无法找到“最佳子集优点”大于零的子集时,会选择给定特征列表中的第一个特征。在统计测试预先选择的特征子集上使用CfsSubsetEval属性选择算法,能显著提高分类准确率(如体裁K)或保持不变。单独使用统计测试作为预处理步骤,要么显著提高分类准确率(如体裁B和N),要么无显著差异。因此,建议在历时文本分类的预处理步骤中,可单独使用统计测试,或结合CfsSubsetEval属性选择算法。
机器学习方法在语言变化研究中展现出多种可能性。它能部分自动化流程,通过提供可能变化的广泛概述,并从潜在的大量初始特征集中选择最重要的特征,加速和促进语言变化研究的初始阶段,还能更方便地比较不同体裁、语言和语言变体的历时变化。
情感极性分类研究背景与任务
情感分析近年来受到广泛关注,这得益于在线观点信息的日益丰富。然而,目前大多数情感分析工作关注的
超级会员免费看
订阅专栏 解锁全文
1064

被折叠的 条评论
为什么被折叠?



