【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

神经排序模型：从对称到异构，从表示到交互

最新推荐文章于 2025-09-17 11:22:20 发布

原创

最新推荐文章于 2025-09-17 11:22:20 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #机器学习 #搜索引擎 #排序算法

文章目录

- 数据集
3. 同一框架
4. 模型结构-对称与非对称
基于表示的模型和基于交互的模型
模型结构： Single-granularity vs. Multi-granularity Architecture
- Single-granularity
- Multi-granularity Architecture
模型学习
模型比较

Neural Ranking Models

优点：避免手工特征
本文仅考虑text
仅考虑dense表示，构建排序函数

排序模型：

vector space models [1],
probabilistic models [2],
learning to rank(LTR) models [3, 4]

神经网络

从原始输入中学习抽象表示
可解决困难问题

以前的LTR模型：

手工特征（耗时、具体）
相关性：定义模糊

稀疏表示/表示学习方法

不使用神经网络构建排序函数
用神经模型[15,16]的文本的低维表示，并在传统的红外模型中使用它们，
or,使用一些新的相似性度量来排序任务。

深度-密集表示（2013-）

2014-2015：短文本
- Deep Structured Semantic Model (DSSM) [13]
  - the ad-hoc retrieval task.
- Lu and Li[14] proposed DeepMatch,
  - Community-based Question Answering (CQA)
  - micro-blog matching tasks.
- ARC I and ARC II [17]
- MatchPyramid [18]
以上用于： short text ranking tasks,such as TREC QA tracks and Microblog tracks [19].
2016：
- 研究人员开始讨论神经排序模型对不同排序任务[21,22]的实际有效性
- 任务：
  - ad-hoc retrieval [23, 24]
  - community-based QA [25]
  - conversational search [26]
- 新的训练范式：
  - neural representations [28]
  - integration of external knowledge [29, 30
  - 其他IR用途： [31, 32].
- 从0学习：（完全无手工特征）超过手工的效果

数据集

ad hoc：short-long
- Robust [21, 18],
- ClueWeb [21],
- GOV2 [33, 34]
- Microblog[33],
- the AOL log [27]
- the Bing Search log [13, 47, 48,23].
- 大规模： NTCIR WWW Task [49],
QA:问题比query长，答案比doc短，相关性定义精确
- TREC QA [53]
- WikiQA [37],
- WebAP [57, 58],
- InsuranceQA [59],
- WikiPassageQA [56]
- MS MARCO [36].
- 模型 [60, 19, 61, 25, 14]
Community Question Answering：短-短（问题间匹配），清晰，对称
- the Quora Dataset7,
- Yahoo! Answers Dataset [25]
- and SemEval-2017 Task3 [64].
- 最近CQADupStack8[65],
- ComQA9[66]
- LinkSO [67].
- 模型：[68, 18, 69, 70, 25]
Automatic Conversation
- 从问题集合中选择适当响应、生成关于输入对话的适当响应
- 单轮对话、多轮对话
- 无词表匹配问题
- 问题： correspondence/coherence and avoid general trivial responses
- 数据集：
  - Ubuntu Dialog Corpus (UDC) [75,77, 78],
  - Sina Weibo dataset [74, 26, 79, 80],
  - MSDialog [81, 30, 82]
  - ”campaign” NTCIR STC [83]

3. 同一框架

框架:LTR

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。