31、基于文本挖掘的中文主观题自动评分算法研究-优快云博客

本文链接：https://blog.youkuaiyun.com/ipfs8storage/article/details/149386597

基于文本挖掘的中文主观题自动评分算法研究

1 引言

近年来，自动评分研究成为热点。对于客观题自动评价，国内已有较为成熟的技术，网络上也有一些支持初中甚至大学英语作文自动评价功能的在线学习系统。然而，主观题评分方面，国外起步虽晚但技术相对成熟，而国内由于中文主观题文本结构多样、语义分析和表达形式复杂，且需运用自然语言处理、模式识别等理论技术，导致国外成熟技术无法直接应用于中文主观题自动评分。因此，国内关于主观题自动评分算法的研究较少，也没有成熟的计算机自动评阅系统，教师仍需手动评分。

主观题虽不像开放性问题那样对答案内容限制少，但仍需回答几个关键点。由于中文语义的多样性，还需正确识别学生回答的语义。主观题评分主要有以下特点：
1. 答案内容为长文本，语义复杂，相似度计算困难。
2. 句子结构复杂，如倒装句使顺序比较困难，否定句易颠倒句子意思。
3. 评分有核心词作为关键得分点，答对关键点即可得分。

2 TR - BFS - WE - WMD 算法设计

使用词向量技术计算文本相似度的算法存在两个问题：一是词向量技术只能表达词的相关性，而非本质的语义相似度；二是处理否定词的能力较弱。为解决这些问题，基于现有的 WE - TR - WMD 句子相似度计算方法，提出了基于词向量和关键词命中的 TR - BFS - WE - WMD 算法。该算法方案由两部分组成：一是使用词向量技术计算句子语义相似度的 WE - WMD 算法；二是检查关键词命中并进行差异化评分的 TR - BFS 算法。算法流程图如下：

graph TD
    A[开始] -->