时间标记的基础知识与评估方法
1 注释标准
时间标记是自然语言处理(NLP)中的一个重要任务,旨在从文本中提取时间表达式并将其标准化为某种标准格式。为了确保时间表达式的正确提取和规范化,必须有明确的注释标准。目前,两种广泛使用的注释标准是 TIDES TIMEX2 和 TimeML(使用 TIMEX3 标签)。这两种标准不仅定义了哪些表达式应该被标记,还规定了如何通过规范化属性捕捉表达式的语义。
TIDES TIMEX2
TIDES TIMEX2 是最早的时间表达式注释标准之一,主要用于早期的时间标记研究。TIMEX2 标签包含以下属性:
- VAL : 表达式的时间值,可以是日期、时间、持续时间或集合。
- MOD : 捕获时间的修饰语。
- 锚点值 : 标准化的锚定日期或时间。
- 相对方向 : VAL 和 ANCHOR_VAL 之间的相对方向。
- SET : 识别表示时间集合的表达式。
例如,表达式 “two days after the revolution” 被注释为 <TIMEX2>two days after the revolution</TIMEX2> ,其中 “revolution” 是一个事件,而 “two days after” 是相对时间表达式。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



