23、语料库标注：原理、流程与工具

最新推荐文章于 2025-10-23 09:54:05 发布

青柠汽水308

最新推荐文章于 2025-10-23 09:54:05 发布

阅读量88

点赞数

CC 4.0 BY-SA版权

分类专栏：计算语言学的全景指南文章标签：语料库标注标注流程标注工具

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/151144989

计算语言学的全景指南专栏收录该内容

54 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语料库标注：原理、流程与工具

1. 引言

标注，也被称为“标记”或“编码”，是为特定目的手动或自动向文本添加信息的过程。在计算语言学中，标注人员识别和/或解读文本中的特定现象，以便利用这些结果训练机器学习算法，使其能够对新文本执行相同的功能。而在语言学、政治学和生物医学领域，标注通常用于实证发现所研究现象的性质和变异范围，或者记录和统计该现象的所有出现情况。

对于计算语言学而言，标注主要是为支持机器学习而进行语料库创建的活动；而对于语言学、政治学和生物医学，它同样可以是理论发展和实证研究的方法。语料库创建和统计任务的基本假设是，如果多个标注人员独立对某一项目做出相同的决策，那么可以认为他们对该项目的识别和/或解读是正确的，并且在经过适当培训后，其他标注人员在其他时间也会做出相同的决策。

计算语言学中常见的标注示例包括词义消歧、共指消解、跨语言句子部分对齐，以及为名词短语或句子分配（可能嵌套的）括号结构。

2. 标注的核心步骤

标注的核心是重复以下步骤：
1. 选择可能包含待标注现象的特定文本片段（有时这个片段是事先确定并提供的）。
2. 选择是否有其他文本片段应与当前选择相关联。
3. 选择一个或多个合适的标签（通常从理论学家或标注管理人员指定的固定集合中选择）。

有时，步骤2并非必需。标注人员通常还会被要求提供标注的注释或表明其决策的确定性。标注结果可以记录在文本的适当位置（称为“内联标注”），也可以记录在单独的文件中（称为“独立标注”），在后一种情况下，必须附带合适的寻址信息以确保与源文本对齐。确保寻址一致性并非易事，因为对单词（如“don’t”是一个词还是两个词）和空格（句点后有两个空格的文档