中学学生作者身份归属中的时间背景影响研究
1. 技术实现细节
在进行相关实验时,采用了一系列特定的技术实现方式:
- 交叉熵测试 :使用自定义实现的交叉熵估计技术,该技术基于特定的方法。实现语言为 C#,并使用 Mono 版本 2.10.8.1 进行编译。
- 分类 :使用 LIBSVM 库版本 3.16 进行分类。由于该库用 C 语言编写,因此编写了 C# 包装器。创建测试和训练数据集以及执行实验的代码也使用 C# 编写。
- 参数选择 :使用 LIBSVM 提供的网格搜索程序来选择 SVM 的参数。程序配置为在 -5 到 15 的区间内以 2 为步长搜索 C 值,在 3 到 -15 的区间内以 -2 为步长搜索 γ 值。
- 结果存储与分析 :SVM 和交叉熵实验的结果、学生数据、korpusDK n - 元组和作者指纹等数据被保存到 SQLite5 数据库中,并使用 Python 2.7 编写的脚本进行分析。
2. 初始实验
2.1 向量长度实验
此实验旨在确定构建向量时应使用的最常见字符 n - 元组的数量。将字符 n - 元组按其在丹麦语中的频率排序,前 k 个 n - 元组对应于语言中最常见的单词。例如,使用前 500 个最常见的 n - 元组大致相当于主要使用停用词。
为了确定合适的 n - 元组数量,在 1 - 4000 的范围内变化 n - 元组的数量,同时使用线性和高斯核,并在默认设置下且不进行数据预处理。实验结果显示,准确率呈现类似
超级会员免费看
订阅专栏 解锁全文
2510

被折叠的 条评论
为什么被折叠?



