文本分组标注与实体识别技术解析
1. 命名实体与普通实体的区分
在文本处理中,区分命名实体和普通实体是一项基础且重要的工作。像“William Shakespeare”和“Stratford - upon - Avon”这类能够通过名称明确识别的实体就是命名实体;而像“this person”“a street”这类没有特定名称来指代的实体则属于普通实体。这种区分本质上反映了普通名词和专有名词的差异。
在新闻和媒体领域,人名和组织名频繁出现且变化迅速。因此,在进行更深入的文本处理之前,首要任务是识别出对应人名、组织名或地名的短语。这些短语可以是单个的专有名词,也可以是一组词汇。此外,命名实体识别通常还会涵盖描述时间和日期的时间表达式,以及数值和数量表达式,尽管它们严格意义上并非传统的实体。
以下是不同语言中部分命名实体的示例:
| 类型 | 英语 | 法语 |
| ---- | ---- | ---- |
| 公司名 | British Gas plc. | Compagnie générale d’électricité SA |
| 人名 | Mr. Smith | M. Dupont |
| 头衔 | The President of the United States | Le président de la République |
2. 标签分组标注方法
标记名词组、动词组或命名实体等组的一种直观方式是使用括号进行标注。例如:
- [The government] has [other agencies and instruments] for pursuing [
超级会员免费看
订阅专栏 解锁全文
2068

被折叠的 条评论
为什么被折叠?



