助力中文学习教师评估:多特征模型的应用与效果
在非母语中文学习的评估领域,如何更准确、高效地评估学生的口语流利度和准确性一直是研究的重点。下面将详细介绍相关的研究内容,包括数据集、特征提取方法、模型构建以及最终的实验结果。
数据集
本次研究的数据来源于非母语学生的本科中文课程。数据收集自同一教师授课的多个班级,主要是学生完成的作业,要求学生提交朗读预先确定的提示内容的音频记录,并回答开放性问题。这里仅聚焦于朗读部分的作业数据,该部分包含 4 个朗读任务,每个任务由一到两个关于一般主题的句子组成。教师会下载音频文件,分别从流利度和准确性两个方面对学生进行评分,评分范围为 0 - 5 分,允许有小数。数据集包含来自 128 名不同学生的 304 个音频文件,每个音频作为一个单独的数据点,每个学生有 1 - 4 个音频文件,每个样本包含学生朗读的任务以及对应的文本提示。
特征提取
- 预处理 :学生提交的音频文件格式多样,如 mp3、m4a 等。使用 ffmpeg Python 库将这些音频转换为语音模型所需的原始 .wav 格式。
- 音频特征 :音频特征提取旨在获取音频信号的组成部分,以便模型能够理解声学特征。使用一个开源的 Python 库将每个录音分割成 50 毫秒的片段,每个片段的起始位置偏移 25 毫秒,生成聚合的时间特征。共生成 34 个基于音频的特征,包括梅尔频率倒谱系数(MFCC)、色度特征和能量相关特征。
- 文本特征 :利用开源的语音识别工具将音频数据转换为字符表示。具体使用 P