匈牙利语自然语言文本中的事件检测与分类及地标对象描述生成
1. 匈牙利语事件检测与分类
在匈牙利语自然语言文本处理中,事件的检测与分类是重要的研究方向。为了实现这一目标,定义了多种特征集,包括表面特征、词汇特征、形态特征、句法特征、语义特征和频率特征。
- 表面特征 :包含字符二元组和三元组,以及单词长度、词元长度和单词在句子中的位置,共7个特征。
- 词汇特征 :以二元特征判断被检查的单词是否为系动词或助动词,共6个特征。
- 形态特征 :由于匈牙利语丰富的形态,定义了MSD代码等多种基于形态的特征,共10个特征。
- 句法特征 :定义了被检查事件候选的子节点的句法标签,共4个特征。
- 语义特征 :使用匈牙利语WordNet,通过创建单独的模型自动收集适合的同义词集,共1 - 10个特征。
- 频率特征 :统计每个事件候选词元在训练集中作为事件的比例,以及动词前缀 + 词元对的类似比例,共2个特征。
同时,还采用了基于规则的方法来处理一些特殊情况,例如在法律文本中,某些动词在其他语境中表示事件,但在法律语境中并非如此。
在事件检测实验中,采用了10折交叉验证的方法,并使用了两个基线解决方案:一个将所有动词和不定式都视为事件,另一个只将非系动词和非助动词的动词和不定式视为事件。实验结果如下:
| 实验情况 | F - 度量值 |
| ---- | ---- |
|
超级会员免费看
订阅专栏 解锁全文
735

被折叠的 条评论
为什么被折叠?



