科学文献中的不确定性研究
1. 不确定性线索识别
1.1 不同强度的不确定性信号
在科学文献中,存在不同强度的不确定性信号。短语如 “might be involved”、“hypothesized that” 和 “raising the possibility that” 给出的是最强信号;“seems to”、“appears to be” 和 “can be anticipated” 属于中等强度信号;而 “presume”、“suppose” 和 “would” 则是较弱的模式。HypothesisFinder 可在信息检索系统 SCAIView Academia 的在线平台获取。基于 BioScope 语料库的评估显示,其精度为 0.91,召回率为 0.73。
1.2 寻找语义等价的不确定性线索
正在开发一种新的不确定性线索词识别方法。与早期常用手工规则和依赖图来识别不确定性线索的研究不同,深度学习和分布式语义学的最新进展有望带来显著改进。
分布式假设认为,出现在相同语境中的词往往具有相似的含义,即语义等价。Word2vec 是近年来最流行的词嵌入模型之一。通过在 Google 新闻上训练的 Word2vec 模型,对一组手工挑选的不确定性线索词进行扩展,得到了更多语义等价的不确定性线索词。
初始不确定性线索词的选择基于对不确定性如何直接表征或间接推断的启发式方法。例如,原始种子列表中的词如 “inconsistent”、“ambiguous”、“debatable”、“bizarre” 和 “surprising” 等,当在科学出版物中出现这些词时,意味着陈述存在一定程度的不确定性。
<
超级会员免费看
订阅专栏 解锁全文
2229

被折叠的 条评论
为什么被折叠?



