4、多语言文本分级与SuMACC项目语料库研究-优快云博客

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005105

多语言文本分级与SuMACC项目语料库研究

多语言文本分级

人工标注表现

在文本分级任务中，对人工标注者的表现进行了评估，相关数据如下：
| 标注者 | kt | mn | mr | rx |
| — | — | — | — | — |
| mse | 0.48 | 0.53 | 0.51 | 0.56 |
| rmse | 0.69 | 0.73 | 0.72 | 0.75 |

同时，还分析了标注者之间的相关性：
| | mn | mr | rx |
| — | — | — | — |
| kt | 0.59 | 0.64 | 0.68 |
| mn | 0.79 | 0.72 | |
| mr | 0.79 | | |

结果显示，两个标注者之间的一致性比与参考标准的一致性更好，两个标注者的平均rmse为0.73。由于人工标注者相对于参考标准的rmse未能低于0.72，且该任务难度较大，同时考虑到所需的大量投入，最终决定不进行自主的文本难度标注。不过，人工标注者的表现结果可作为评估自动文本分级分析性能的指标。

文本分级数据集

通过与马里兰大学高级语言研究中心（CASL）的合作，获得了一个带有单一ILR文本分级标注的文档集合。这些文档涵盖了5个广泛的主题领域，并且均匀分布在书面文本（4.5k篇）和人工转录文本（5k篇）之间。数据除了包含来自54种非英语语言的源语言文本外，还提供了人工英语翻译。具体的主题分布如下表所示：
| 主题 | 数量 |
| — | — |
| 文化/社会 | 3,635