多语言文本分级与SuMACC项目语料库研究
多语言文本分级
人工标注表现
在文本分级任务中,对人工标注者的表现进行了评估,相关数据如下:
| 标注者 | kt | mn | mr | rx |
| — | — | — | — | — |
| mse | 0.48 | 0.53 | 0.51 | 0.56 |
| rmse | 0.69 | 0.73 | 0.72 | 0.75 |
同时,还分析了标注者之间的相关性:
| | mn | mr | rx |
| — | — | — | — |
| kt | 0.59 | 0.64 | 0.68 |
| mn | 0.79 | 0.72 | |
| mr | 0.79 | | |
结果显示,两个标注者之间的一致性比与参考标准的一致性更好,两个标注者的平均rmse为0.73。由于人工标注者相对于参考标准的rmse未能低于0.72,且该任务难度较大,同时考虑到所需的大量投入,最终决定不进行自主的文本难度标注。不过,人工标注者的表现结果可作为评估自动文本分级分析性能的指标。
文本分级数据集
通过与马里兰大学高级语言研究中心(CASL)的合作,获得了一个带有单一ILR文本分级标注的文档集合。这些文档涵盖了5个广泛的主题领域,并且均匀分布在书面文本(4.5k篇)和人工转录文本(5k篇)之间。数据除了包含来自54种非英语语言的源语言文本外,还提供了人工英语翻译。具体的主题分布如下表所示:
| 主题 | 数量 |
| — | — |
| 文化/社会 | 3,635
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



