35、科学文献中的不确定性研究

科学文献中的不确定性研究

1. 不确定性线索识别

1.1 不同强度的不确定性信号

在科学文献中,存在不同强度的不确定性信号。短语如 “might be involved”、“hypothesized that” 和 “raising the possibility that” 给出的是最强信号;“seems to”、“appears to be” 和 “can be anticipated” 属于中等强度信号;而 “presume”、“suppose” 和 “would” 则是较弱的模式。HypothesisFinder 可在信息检索系统 SCAIView Academia 的在线平台获取。基于 BioScope 语料库的评估显示,其精度为 0.91,召回率为 0.73。

1.2 寻找语义等价的不确定性线索

正在开发一种新的不确定性线索词识别方法。与早期常用手工规则和依赖图来识别不确定性线索的研究不同,深度学习和分布式语义学的最新进展有望带来显著改进。

分布式假设认为,出现在相同语境中的词往往具有相似的含义,即语义等价。Word2vec 是近年来最流行的词嵌入模型之一。通过在 Google 新闻上训练的 Word2vec 模型,对一组手工挑选的不确定性线索词进行扩展,得到了更多语义等价的不确定性线索词。

初始不确定性线索词的选择基于对不确定性如何直接表征或间接推断的启发式方法。例如,原始种子列表中的词如 “inconsistent”、“ambiguous”、“debatable”、“bizarre” 和 “surprising” 等,当在科学出版物中出现这些词时,意味着陈述存在一定程度的不确定性。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值