语义相似性框架与生物医学知识处理方案解析
在当今信息爆炸的时代,无论是语言处理中的语义相似性计算,还是生物医学领域的知识获取与利用,都面临着诸多挑战。本文将深入探讨两个重要的研究内容:一是利用多种词性的语义相似性框架,二是用于生物医学出版物知识获取、处理和传播的CORAAL系统。
语义相似性框架评估
为了计算不同词性词汇之间的语义相似性,研究人员提出了一个框架,并对其进行了评估。评估过程中,他们重写了三种基于信息内容(IC)的现有相似性度量方法,并实现了基于相似性的英语测试求解器(SB - ETS)。SB - ETS可用于词义识别和同义词检测,给定一个基础词和四个选项,它能返回最相似的词。研究人员对四个数据集分别计算了正确答案的百分比(P)。
在英语词汇测试评估中,研究人员将相似性度量方法与基于点互信息 - 信息检索(PMI - IR)和归一化Google距离(NGD)的方法进行了对比,并考虑了Google(G)和Yahoo(Y)这两种不同的搜索引擎。评估时还采用了词性标注、词干提取和停用词消除等操作。
|测试集|评估指标|Res|J&C|Lin|
| ---- | ---- | ---- | ---- | ---- |
|VOA|有标注P值|0.6|0.6|0.6|
|VOA|有标注Na值|0|0|0|
|VOA|有标注时间(s)|18|18|18|
|TOEFL|有标注P值|0.6|0.5|0.6|
|TOEFL|有标注Na值|1|1|1|
|TOEFL|有标注时间(s)|5|3|4|
|Sat|有标注P值|0.9|0.8|0.9|
|Sat|有标注Na值|0|0|0|
超级会员免费看
订阅专栏 解锁全文
932

被折叠的 条评论
为什么被折叠?



