印地语和马拉地语命名实体识别:单语与多语言BERT对比研究及遥感在精准农业中的应用
印地语和马拉地语命名实体识别实验
在自然语言处理领域,针对印度使用人数较多的印地语和马拉地语进行命名实体关系(NER)任务的研究很有意义。下面将详细介绍相关实验的数据集和模型架构。
数据集
本次研究使用了公开可用的印地语和马拉地语数据集进行NER任务:
- 印地语数据集 :
- IJCNLP 2008数据集 :包含11,400个句子,有12个类别,如人物、组织、地点等。数据未划分,按70 - 15 - 15的比例划分为训练集、测试集和调优集。对标注不当的标签进行了修正,统一了“Term”实体的标签,并去除了模糊标签,替换为“O”标签。
- WikiAnn NER语料库(2017年Pan等人发布) :包含11,833个句子,分为组织、人物和地点3个类别,是“银标准”数据集。
- 马拉地语数据集 :
- IIT Bombay马拉地语NER语料库(2018年Murthy等人发布) :包含5,591个句子,有地点、人物、组织3个类别,提前划分了训练 - 测试 - 调优集。
- WikiAnn NER语料库(2017年Pan等人发布) :包含14,978个句子,分为组织、人物和地点3个类别,是“银标准”数据集。
处理这些数据集时面临一些挑战:
- IJCNLP数据集和IIT Bombay马拉
超级会员免费看
订阅专栏 解锁全文
77

被折叠的 条评论
为什么被折叠?



