IOB, BIO, BIOES

本文深入探讨了实体标注技术中的BIO、IOB与BIOES三种常见标注方式,对比了它们在不同任务上的表现,指出BIOES在精确度方面更胜一筹,尤其适用于复杂文本的实体边界识别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

B: begin
I: in
O: outside
E: end
S: single
X: type

BIO: 所有segment都用B-X开始标记, 随后的token用I标记. 不是segment的用O标记.
IOB: B只在两个或多个同类segment在一起时使用. 如果该segment前面有一个类别相同的另一个segment, 那它的第一个token就用B-X标记.
BIOES: B,I,O的效果与BIO一致, E用于每个segment的结尾, S用于该segment只有一个token时使用.

附论文 https://arxiv.org/pdf/1707.06799.pdf
其中有这三种标注方式的说明, 并显示IOB在所有任务上都不太行, BIO比较好(Figure 6)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值