语义搜索与电力公司安全能力评估研究
1. 语义搜索的LSTM神经网络模型
在搜索领域,搜索引擎的核心在于计算用户查询与可能文档之间的相关性得分。语义搜索任务可以用函数表示为:
$f (Query, Doc) = SemanticScore{a|a \in R, a \in [1, 3]}$
其中,$Query$ 是用户输入的查询词,$Doc$ 是文档,$SemanticScore$ 是一个介于1和3之间的实数,1表示“不相关”,3表示“极其相关”。
基于此,提出了一种适用于语义搜索的基于长短期记忆网络(LSTM)的神经网络模型。如果直接应用之前的模型进行语义搜索,会发现用户查询和文档之间存在信息数量的不平衡,文档包含的信息比用户查询更多,直接使用原模型理论上无法获得显著的性能。
为了平衡信息数量,对模型进行了改进,改进后的模型具有以下特点:
- 多次拼接用户查询和相关文档,模型输入层由用户查询的LSTM表示和相关文档句子的LSTM表示两部分组成,充分利用用户查询来平衡信息数量。
- 对于每一对用户查询和文档,获得多个语义得分。
- 使用岭回归作为最后一步输出最终的语义相关性得分。
模型的输入包括用户查询词(QW)和相关文档。对于QW,模型使用全局向量表示(GloVe)将其直接转换为向量,然后使用LSTM对向量进行编码。对于相关文档,模型先将文档拆分为句子,然后使用与QW相同的方法进行处理。LSTM编码后,模型将用户查询拼接两次到每个句子上,得到多个语义得分。将这个任务视为回归问题:
$S’ = Xw = X(X^T X + \lambda E)^{-1}X^T S$
其中,$S$ 表示实际语义得分,
语义搜索与电力安全评估研究
超级会员免费看
订阅专栏 解锁全文

30

被折叠的 条评论
为什么被折叠?



