语料库标注:原理、流程与工具
1. 引言
标注,也被称为“标记”或“编码”,是为特定目的手动或自动向文本添加信息的过程。在计算语言学中,标注人员识别和/或解读文本中的特定现象,以便利用这些结果训练机器学习算法,使其能够对新文本执行相同的功能。而在语言学、政治学和生物医学领域,标注通常用于实证发现所研究现象的性质和变异范围,或者记录和统计该现象的所有出现情况。
对于计算语言学而言,标注主要是为支持机器学习而进行语料库创建的活动;而对于语言学、政治学和生物医学,它同样可以是理论发展和实证研究的方法。语料库创建和统计任务的基本假设是,如果多个标注人员独立对某一项目做出相同的决策,那么可以认为他们对该项目的识别和/或解读是正确的,并且在经过适当培训后,其他标注人员在其他时间也会做出相同的决策。
计算语言学中常见的标注示例包括词义消歧、共指消解、跨语言句子部分对齐,以及为名词短语或句子分配(可能嵌套的)括号结构。
2. 标注的核心步骤
标注的核心是重复以下步骤:
1. 选择可能包含待标注现象的特定文本片段(有时这个片段是事先确定并提供的)。
2. 选择是否有其他文本片段应与当前选择相关联。
3. 选择一个或多个合适的标签(通常从理论学家或标注管理人员指定的固定集合中选择)。
有时,步骤2并非必需。标注人员通常还会被要求提供标注的注释或表明其决策的确定性。标注结果可以记录在文本的适当位置(称为“内联标注”),也可以记录在单独的文件中(称为“独立标注”),在后一种情况下,必须附带合适的寻址信息以确保与源文本对齐。确保寻址一致性并非易事,因为对单词(如“don’t”是一个词还是两个词)和空格(句点后有两个空格的文档
超级会员免费看
订阅专栏 解锁全文
4052

被折叠的 条评论
为什么被折叠?



