6、土耳其金融事件提取语料库：构建与优化

最新推荐文章于 2025-11-19 13:57:11 发布

neovim7hacker

最新推荐文章于 2025-11-19 13:57:11 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：智能分布式系统前沿探析文章标签：土耳其金融事件提取语料库构建主动学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/neovim7hacker/article/details/152191644

智能分布式系统前沿探析专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

土耳其金融事件提取语料库：构建与优化

1. 相关工作

1.1 事件提取语料库

标注是让机器学习模型做出正确预测的过程，通过展示期望的预测结果，生成的训练数据能引导模型准确理解任务并做出预期预测。因此，生成语料库对模型的成功至关重要，但这可能比看起来更困难。

通常，待生成的数据集由具有领域知识的专家手动标注，这是一项耗时且高强度的工作，所以早期的语料库生成研究规模较小且不够全面。例如：
- ACE 2005语料库：共包含599篇文档，涵盖英语、阿拉伯语和中文，包含8种事件和33种子类型。
- SENTIVENT语料库：在288篇英文文档中包含约6203个事件，本研究定义了18种事件类型和64种子类型。

我们借鉴了该领域其他研究中的事件触发和参数标注过程，但由于这些研究中使用的类型和子类型对我们来说不够，我们根据阅读的新闻确定了新的事件类型和子类型进行了扩展。

1.2 数据扩展

机器学习算法需要大量数据来学习事件、复杂模式并更好地进行泛化，因为更多数据有助于模型更好地理解潜在模式，增加成功预测的机会。传统方法是聘请专家标注数据，但如果待标注的数据集很大，这个过程会变得非常昂贵和困难。为避免数据稀疏，我们可以开发使用小标注数据集或字典的模型来获取更多标注数据。以下是几种获取更多标注数据的方法：
- 主动学习（Active Learning，AL） ：构建良好模型所使用的数据效果不同，AL方法的目的是选择信息最有价值的样本，而非使用所有可用数据。通过选择性标注，它可以达到与更多标注相同或更好的效果。AL已成功应用于许多任务，如命名实体识别、文本分类、词性

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。