语言处理认知信号相关数据集与伦理考量
在语言处理研究领域,数据集的多样性和质量对于深入理解人类语言认知过程至关重要。同时,在数据收集和使用过程中,伦理问题也不容忽视。本文将介绍几种重要的数据集,并探讨相关的伦理方面的内容。
可用数据集
多语言眼动追踪语料库(MECO)
大多数基于认知的语料库仅包含单一语言(主要是英语)的数据。而多语言眼动追踪语料库(MECO)是一个显著的例外,它是第一个在广泛语言范围内保持稳定实验设置的眼动追踪数据集。该语料库包含了580名参与者阅读母语(L1)和英语(L2)句子的数据。阅读材料由12篇文本组成,每篇文本约10个句子,描述一般领域的主题。专家为13种语言创建了这些文本的平行版本,包括荷兰语、英语、爱沙尼亚语、芬兰语、德语、希腊语、希伯来语、意大利语、韩语、挪威语、俄语、西班牙语和土耳其语。完整的文本显示在一个跨多行的屏幕上,参与者可以自然阅读,没有时间限制。
所有参与者都分享了他们的人口统计细节,并进行了认知和词汇评估测试,这使我们能够研究词汇知识、年龄等用户特定变量的影响。研究发现,不同语言的读者在跳过率上存在显著差异,这种差异可以通过跨语言的词长分布差异来解释。
EEG阅读和听力数据集
- 苏黎世认知语言处理语料库(ZuCo) :这是一个结合了脑电图(EEG)和眼动追踪记录的数据集,来自12名健康成年英语母语者阅读自然英语文本的过程,每人阅读时间为4 - 6小时。记录涵盖了三个阅读任务(两个与一般理解相关,一个与特定任务阅读相关)。阅读材料提取自斯坦福情感树库和关系提取语料库,以便重用现有的注释,将认知信号与特定任务模型整合。研
超级会员免费看
订阅专栏 解锁全文
1214

被折叠的 条评论
为什么被折叠?



