从CGM中进行人类活动的自监督挖掘与自适应高阶神经网络的数据挖掘应用
人类活动提取实验
为了评估一种提取人类活动属性的方法的优势,研究人员使用了从日本CGM中随机检索的533个活动句子进行实验。其中356个句子描述一个活动,177个句子描述两个活动。实验中,当一个活动的所有属性都被正确提取时,才认为该活动提取正确。每个属性的精度定义为正确提取的属性数量除以总属性数量。
使用一台CPU为3.2GHz、RAM为3.5GB的PC,提取器模块仅对整个实验数据集进行一次遍历,就得到了如下结果:
| 应提取数量 | 正确提取数量 | 精度(%) |
| — | — | — |
| 710 | 631 | 88.87 |
| 196 | 182 | 92.86 |
| 710 | 693 | 97.61 |
| 509 | 479 | 94.11 |
| 173 | 165 | 95.38 |
| 130 | 120 | 92.31 |
| 26 | 22 | 84.62 |
这个过程仅耗时0.27秒,而像Cabocha这样广泛使用的深度解析器解析相同的实验数据则需要超过46.45秒,该方法的性能比其高出172倍以上。
实验结果分析
- 动作提取高精度原因 :在活动句子中,动作对应动词短语。研究使用了对检测动词短语精度较高的Mecab解析器,并且在测试前简化了复杂的动词短语,因此动作提取精度达到了97.61%。
- 对象提取高精度原因 :在日语句子中,后置助
超级会员免费看
订阅专栏 解锁全文
188

被折叠的 条评论
为什么被折叠?



