土耳其金融事件提取语料库:构建与优化
1. 相关工作
1.1 事件提取语料库
标注是让机器学习模型做出正确预测的过程,通过展示期望的预测结果,生成的训练数据能引导模型准确理解任务并做出预期预测。因此,生成语料库对模型的成功至关重要,但这可能比看起来更困难。
通常,待生成的数据集由具有领域知识的专家手动标注,这是一项耗时且高强度的工作,所以早期的语料库生成研究规模较小且不够全面。例如:
- ACE 2005语料库:共包含599篇文档,涵盖英语、阿拉伯语和中文,包含8种事件和33种子类型。
- SENTIVENT语料库:在288篇英文文档中包含约6203个事件,本研究定义了18种事件类型和64种子类型。
我们借鉴了该领域其他研究中的事件触发和参数标注过程,但由于这些研究中使用的类型和子类型对我们来说不够,我们根据阅读的新闻确定了新的事件类型和子类型进行了扩展。
1.2 数据扩展
机器学习算法需要大量数据来学习事件、复杂模式并更好地进行泛化,因为更多数据有助于模型更好地理解潜在模式,增加成功预测的机会。传统方法是聘请专家标注数据,但如果待标注的数据集很大,这个过程会变得非常昂贵和困难。为避免数据稀疏,我们可以开发使用小标注数据集或字典的模型来获取更多标注数据。以下是几种获取更多标注数据的方法:
- 主动学习(Active Learning,AL) :构建良好模型所使用的数据效果不同,AL方法的目的是选择信息最有价值的样本,而非使用所有可用数据。通过选择性标注,它可以达到与更多标注相同或更好的效果。AL已成功应用于许多任务,如命名实体识别、文本分类、词性
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



