自动识别事件类别的中文事件抽取技术研究

本文探讨了基于机器学习的事件抽取方法,包括事件元素驱动、事件触发词驱动和事件实例驱动。提出了一个新的基于事件实例驱动的模型,通过二元分类过滤非事件句子,再使用支持向量机进行事件类别识别,以解决正反例不平衡和数据稀疏问题,旨在实现自动文本事件抽取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.简介

    本文使用的方法是基于机器学习的事件抽取方法,基于机器学习的方法该类方法克服了基于模板方法的缺陷,较为客观,也不需要太多的人工干预和领域知识。根据抽取模型所采用的不同的数据驱动源,现有的方法主要可分为三类:

1.基于事件元素驱动

    Chieu 等首次在事件抽取中引入最大熵分类器,用于事件元素的识别 。该方法实现了两个领域中的抽取任务,分别是半结构化的讲座通告和自由文本的人事管理。该方法突破了早期识别一个句子中多个模板信息只能用模式匹配的方法的局限,实现了利用机器学习理论中分类器的思想来识别描述一个事件的各元素及其关系。但是该方法存在着缺陷:将所有的词引入构建判断事件各元素的分类器时,因为文本中存在着很多非事件元素的词,所以构建分类器时将引入太多的反例,导致正反例严重的不平衡。

2.基于事件触发词驱动

    Ahn结合 MegaM 和 Timbl 两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在 ACE(Automatic content extraction)语料上均取得了不错的效果。在 Ahn 的方法中,最重要的一个步骤就是判断句子中的每个词是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值