自动评分与工业物联网自主网络构建技术解析
自动评分系统关键模块
自动评分系统在教育领域有着重要的应用,它主要包含抄袭检测模块和同行评审模块,下面为你详细介绍这两个模块的工作原理。
抄袭检测模块
抄袭检测模块利用三种文本相似度指标来判断作业是否存在抄袭情况,分别是余弦相似度、杰卡德相似度和皮尔逊相关系数。该模块会对作业进行预处理,然后计算这三种相似度指标,最后通过加权平均得到最终的抄袭分数,其中余弦相似度的权重相对较高。
- 余弦相似度 :将每份作业转换为向量,通过计算这些向量的余弦积来衡量相似度。向量转换借助拟合变换器和TF - IDF变换器函数完成。TF - IDF反映了单词在作业集合或语料库中的重要性,它与单词在作业中的出现次数成正比,同时会受到单词在语料库中出现频率的平衡。具体计算公式如下:
- 词频(TF):$TF_{t,d}=\frac{f_{t,d}}{f_{t,d}^{max}}$,其中$f_{t,d}$表示术语$t$在文档$d$中出现的原始频率。
- 逆文档频率(IDF):$idf(t,D)=\log_2\frac{N}{|{d\in D:t\in d}|}$,$N$为数据库中作业的总数,$|{d\in D:t\in d}|$表示术语$t$出现的作业数量。
- TF - IDF:$tfidf(t,d,D)=tf(t,d)\times idf(t,D)$
- 杰卡德相似度 :通过计算两份作业中相交或重叠的单词数量,并除以两份作业的并集来
超级会员免费看
订阅专栏 解锁全文
981

被折叠的 条评论
为什么被折叠?



