孟加拉语事实问答系统与基于字典的问题短语提取
一、孟加拉语事实问答系统(BFQA)
1.1 相似度度量
在相似度度量中,仅考虑词性(POS):动词(VB)、名词(NN)、形容词(ADJ)和专有名词(NE)。为动词、名词、形容词和命名实体分别定义了四个权重 λvb、λnn、λadj 和 λne,设置 λvb = 0.2,λnp = 0.3,λadj = 0.1,λne = 0.4,使得四个权重之和为 1,即 $\sum_{Pos\in{vb,np,adj,ne}} \lambda_{Pos} = 1$。
自然语言问题 Qt 和句子 Sl 的相似度计算公式为:$Similarity(Q_t,S_l) = \sum_{K=1}^{n} frequency_{Q.wK}$,其中 $w_K = Q(\lambda_{Pos})$,$frequency_Q$ 是问题词 Q 在句子 Sl 中的出现次数。
1.2 名称比例(nprop)
使用 Jaccard 相似度系数来衡量名称比例。在名称比例度量中,它被定义为问题和句子中命名实体交集的大小除以问题和句子中命名实体并集的大小。
1.3 段落相关性
段落与问题的相关性通过计算段落中查询词的存在情况来衡量,同时也考虑查询词的同义词。为每个出现的词分配相关性权重:
- 若原始查询词出现在段落中,相关性权重(rw)为 1.0;
- 若同义词出现在段落中,相关性权重为 0.9;
- 若既没有查询词也没有同义词,相关性权重为 0.0。
单词的段落相关性计算公式为:$R_w = frequency\times rw =
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



