中文信息抽取技术初探索

部署运行你感兴趣的模型镜像

先推荐一篇博士论文:

【中文事件抽取关键技术研究-谭红叶】

以下大部分内容都是从这篇博士论文中整理出来的。

在MUC评测会议上,信息抽取定义包括:

  • 命名实体的识别(Named entities,NE)
  • 命名实体关系的抽取(Template relation,TR)
  • 指定事件及其主要论元角色的抽取 (Scenario template ,ST)
  • 模板元素的填充(Template element,TE)
  • 共指关系的确定(conference)

在ACE评测会议上,信息抽取定义定义的抽取是在单个文档内部进行(Document level IE),不受其他文档的影响,不属于跨文档的信息抽取(Across document IE)。包括:

  • 实体的检测和识别(Entity detection and recognition, EDR)
  • 关系的检测和识别(Relation detection and recognition, RDR)
  • 事件的检测与识别(Event detection and recognition, VDR)
  • 值 的 检 测 和 识 别 (Value detection and Recognition, VAL)
  • 时间的检测和识别(Time detection and recognition)

由此可见,信息抽取的核心应该是命名实体识别+关系抽取+事件抽取

事件的检测与识别主要指特定类型事件的检测和相关信息的识别。相关的信息主要包括:
- 属性信息
- 论元角色
- 文中描述事件的句子或片段

事件抽取涉及到的核心任务是:事件mention的识别、事件属性的确定和论元角色的识别。
即主要包括事件的检测与分类(又称事件识别)、事件论元角色抽取(又称事件元素识别)两个阶段。

ACE评测会议将事件分为8 个大类和 33 个子类,分别为:
- Justice :Acquit无罪、Appeal呼吁、Arrest-Jail拘捕入狱、Charge-Indict案件起诉、Convict宣判有罪、Execute处死、Extradite引渡、Fine罚款、Pardon赦免、Release-Parole假释、Sentence宣判、Sue控告、Trial-Hearing审判/听证。
- Conflict冲突:Attack攻击、Demonstrate示威
- Contact联系:Meet见面、Phone-Write电话写信
- Life生活:Be-Born出生、Die死亡、Divorce离婚、Injure受伤、Marry结婚。
- Movement:Transport运输。
- Business:Declare-Bankruptcy宣告破产、End-Org、Merge-Org企业并购、Start-Org创办企业。
- Personnel人事:Elect选举、End-Position最终职位、Nominate任命、Start-Position实习职位。
- Transaction交易:Transfer-Money转账、Transfer-Ownership过户。

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值