4、多语言文本分级与SuMACC项目语料库研究

多语言文本分级与SuMACC项目语料库研究

多语言文本分级

人工标注表现

在文本分级任务中,对人工标注者的表现进行了评估,相关数据如下:
| 标注者 | kt | mn | mr | rx |
| — | — | — | — | — |
| mse | 0.48 | 0.53 | 0.51 | 0.56 |
| rmse | 0.69 | 0.73 | 0.72 | 0.75 |

同时,还分析了标注者之间的相关性:
| | mn | mr | rx |
| — | — | — | — |
| kt | 0.59 | 0.64 | 0.68 |
| mn | 0.79 | 0.72 | |
| mr | 0.79 | | |

结果显示,两个标注者之间的一致性比与参考标准的一致性更好,两个标注者的平均rmse为0.73。由于人工标注者相对于参考标准的rmse未能低于0.72,且该任务难度较大,同时考虑到所需的大量投入,最终决定不进行自主的文本难度标注。不过,人工标注者的表现结果可作为评估自动文本分级分析性能的指标。

文本分级数据集

通过与马里兰大学高级语言研究中心(CASL)的合作,获得了一个带有单一ILR文本分级标注的文档集合。这些文档涵盖了5个广泛的主题领域,并且均匀分布在书面文本(4.5k篇)和人工转录文本(5k篇)之间。数据除了包含来自54种非英语语言的源语言文本外,还提供了人工英语翻译。具体的主题分布如下表所示:
| 主题 | 数量 |
| — | — |
| 文化/社会 | 3,635

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值